【大数据】离线批处理计算MapReduce | 复习笔记

在这里插入图片描述

一些介绍

分布式计算模型

批处理计算:(大容量静态数据集)

  1. 有界、持久、大量
  2. 理需要访问全套记录,不适合对处理时间要求较高的场合

偷老师的图:
在这里插入图片描述
在这里插入图片描述

常见计算模式

主要点在于分开mapper和reducer,然后确定每个<key,value>键值对的意义

  • 求和模式(Summarization Pattern)
    单词统计:

    1. map阶段:输入<key,value>是<网页ID,网页内容>,输出<key,value>是<单词,出现次数>
    2. reduce阶段:累加相同key值的,输出<单词,出现次数>
    3. 补充:map和reduce间是shuffle阶段,在shuffle阶段,可以先对每一个map做combiner(合并相同的key对应的value,局部reducer),然后做partitioner,通过hash等方式分配中间结果数据给reducer,实现负载均衡
  • 过滤模式(Filtering Pattern)

    1. 简单过滤:Map-Only
    2. TOP K:Mapper首先统计出数据块内所有记录中某个字段满足Top K条件的记录子集,得到局部Top K记录。然后通过Reducer对这些局部Top K记录进一步筛选,获得最终的全局最大的K条记录。
  • 数据组织模式(Data Organization Pattern)

    1. 数据分片
    2. 全局排序:“排序是MapReduce的天然特性”(a每个map输出结果有序;b每个reduce输入有序)但当多个reducer时,需要通过Partition策略,保证不同Reducer处理一个范围区间的记录。
实例

文本分析、页面点击统计、专利引用统计

特点
  • 优点:
    1. 极强的可扩展性
    2. 很好的容错性,
    3. 简单,用户只需完成Map和Reduce
      函数即可完成大规模数据的并行处理
  • 缺点:
    1. 不适合对时效性要求较高的应用场景(Map和Reduce任务启动时间较长)
    2. 不适合迭代运算类(在多处的磁盘读/写及网络传输过程)
K-Means算法MapReduce化
  1. mapper处理根据簇中心重新分簇,输出键值对为<cluster assigned to , 数据点自身>;
  2. combine阶段,键值对<cluster id ,-【 # of data points of this cluster, mean】>;
  3. reducer处理根据分簇情况重新计算簇中心,键值对<该cluster 的id,该cluster的数据点的均值及对应于该均值的数据点的个数>
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值