MapReduce设计模式总结

本文总结了MapReduce的各种设计模式,包括概要模式(如数值概要、倒排索引概要、计数器计数)、过滤模式(过滤、布隆过滤、Top10、去重)、数据组织模式(分层机构、分区、分片、分箱、全排序、混排)和连接模式(外链接、内连接、反连接、笛卡尔积、reduce端连接)。这些模式在大数据处理中有着广泛的应用,如数据清洗、数据分析和数据组织。
摘要由CSDN通过智能技术生成

概要模式

  • 数值概要

目的:基于某个键将记录分组,并将每个分组做一系列的聚合值,从而得到较大数据集的高层次试图

适用场景:

  1. 要处理的数据是数值数据或者计数
  2. 数据可以按照某些特定的字段分组

已知应用:

  1. 单词计数
  2. 记录计数
  3. 最大值/最小值/计数
  4. 平均值/中位数/标准差
  • 倒排索引概要

目的:产生一个数据集的索引以提供更快的搜索或数据丰富能力

适用场景:通常用在需要快速搜索查询响应的场景。可以对一个查询结果做预处理并存储在一个数据库中。

  • 计数器计数

目的:得到大数据集计数概要的一种高效方法

适用场景:

  1. 在一个大数据集上收集计数或汇总
  2. 需要创建的计数器数量很少——两位数字以内

已知应用:

  1. 统计记录数
  2. 统计小数量级的唯一实例计数
  3. 汇总

 

过滤模式

  • 过滤

目的:过滤掉不感兴趣的记录并将需要的记录保留下来

适用场景:使用过滤的唯一必要条件就是数据可以被解析成“记录”,并可以通过非常特定的准则来确定他们是否被保留

已知应用:

  1. 近距离观察数据
  2. 跟踪某个事件的线索
  3. 分布式grep
  4. 数据清理
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值