Map-Reduce

Map-Reduce

主要从以下几个方面来学习:

  • 分布式系统
  • 计算模型
  • 调度与数据流
  • 改进与优化

1. 分布式系统

集群的架构
在这里插入图片描述
集群计算需要面临的问题:

  1. 怎样保持数据的可持续性
  2. 当某些节点出现故障时并不影响使用数据
  3. 网络带宽为1 Gbps,移动10TB数据需要花费近一天的时间
  4. 分布式编程很复杂

Map-Reduce集群运算时问题的解决方案

  • 在多节点上冗余地存储数据, 以保证数据的持续性和一直可取性
  • 将计算移向数据端, 以最大程度减少数据移动
  • 简单的程序模型隐藏所有的复杂度

分布式文件存储系统

  • 提供全局的文件命名空间,冗余度和可获取性:例如Google 的 GFS; Hadoop 的 HDFS

典型的应用场景与模式

  • 超大级别的数据量(100GB到100TB级别)
  • 数据很少就地整个被替换
  • 最常见的操作为读取和追加数据
  • 分布式文件系统
    在这里插入图片描述服务器块
     文件被分作16-64MB大小的连续块
     每个文件块会被重复地存储2到3次
     尽量保证重复的数据块在不同的机架上
    主节点
     Hadoop的HDFS里叫做Name节点
     存储元数据记录文件存储结构和地址
     也可以重复
    文件访问的客户端库
     询问主节点以获取块服务器地址
     直接连接相应服务器块获取数据

举个例子:对词频进行统计
现有一个超大的文本文件,对每个文本中的词,统计它出现的次数。
场景1:

  • 文件本身太大无法全部载入内存
  • 所有的词和频次对<word,count>以字典的形式载入内存
    场景2:
  • 所有的词和频次对<word, count> 都超出了内存大小
  • words(doc.txt)| sort | uniq -c ( linux命令)
  • 其中words命令输出一个文本内容中所有词,一个一行
  • 场景2体现了MapReduce的精髓
  • 它是纯天然并行化的

2.计算模型

在这里插入图片描述
Map步骤:
在这里插入图片描述
Reduce步骤:
在这里插入图片描述
Map:
读取输入文本,产生一序列键值对
按照key进行排序:
将所有相同key的键值对排在一起
Reduce:
收集和统计对应同一个key的value并输出
在这里插入图片描述
伪代码

map(key, value):
	key: 文档名称; value: 文档的文本内容
	for each word w in value:
		emit(w, 1)
reduce(key, values):
	key: 一个单词; value: 一个计数的迭代器
	result = 0
	for each count v in values:
		result += v
	emit(key, result)

3. 调度与数据流

在这里插入图片描述
并行化:将key,value划分到不同的reduce任务中。
在这里插入图片描述
输入和输出都被存储在分布式文件系统(DFS)上:

  • 实际调度操作时,调度器会尽可能将map任务移至靠近数据物理存储的节点上
  • 中间结果将会被存储在Map和Reduce操作的本地文件系统上
  • 实际运行过程中, 一个Map-Reduce产生的结果,很有可能作为另一个Map-Reduce任务的输入

启动多少个Map和Reduce任务呢?

实际操作的经验法则:

  • 通常情况下,会让M远大于集群中的节点数
  • 设置为一个分布式文件系统块一个Map任务
  • 提升动态加载平衡,同时加速节点故障时的任务恢复
  • R比M要小(输出要分布在R个文件上)

4. 改进与优化

我们通过在Mapper中,进行预聚合(pre-aggregating)操作,来节约网络的时间成本。
 合并 (k, list(v1)) → v2
 合并器(combiner)通常和reduce
函数是一致的
在这里插入图片描述
注意:只有在满足交换律和结合律的条件下,combiner才能起作用
改进:分区函数
在这里插入图片描述

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值