滴滴第一期技术沙龙

今天参加了滴滴的第一期技术沙龙,主题是大数据处理。了解到现在的Hadoop社区主要包括如下工具:HDFS(hdaoop文件系统)、MapReduce(一次性的任务计算框架)、Hive、Hbase(相当于数据库)、Spark(时间段内的实时处理)、strom(一行数据处理)、kafka(消息发送)、Flume(数据传送)、Yarn(任务调度系统)。
首先是HDFS。HDFS是一种文件系统,假设要在100台机器的集群中存储100G数据,那么它会将100G的数据按机器的配置高低,分配到这100台机器上(具体使用多少台机器,是可以调整的)。比如有的机器配置高,会存储2G数据,有的配置低,只存储500MB数据。然后每一台机器上的数据,都会在其他机器上备份3份副本。这样是为了保证数据的可靠性,当该集群挂掉后,监控程序会自动地新增副本。
其次是MapReduce。MapReduce是一种任务计算框架,简称MR。它提供了两个编写接口,分别是Map函数、Reduce函数。应用场景如下,100G的数据集中,统计每个单词出现的次数。那么结合HDFS文件系统,它的处理过程会是这样的。首先将这100G数据分配到集群中的100台机器上,而每个机器上会部署我们写好的map任务,每个map任务只会处理该机器上的数据。map的执行过程为,
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值