第9章 MapReduce的特性

额,好多东东读不懂啊。。。。

计数器
  • 作用:计数器是收集作业统计信息的有效手段之一,用于质量控制或应用级统计。计数器还可辅助诊断系统故障。
  • 任务计数器
  • 文件系统计数器
  • FileInputFormat 计数器
  • FileOutputFormat计数器
  • 作业计数器
    • 作业计数器由application master维护,因此无需在网络间传输数据
  • 用户定义的java计数器
  • 用户定义的Streaming 计数器
排序
  • 部分排序
    • 许多应用并不强求待处理的文件全局有序
  • 全排序
    • 思路:首先,创建一系列排好序的文件 其次 串联这些文件 最后生成一个全局排序的文件。主要思路是使用一个partitioner来描述输出的全局排序
连接
  • MapReduce 能够执行大型数据集间的“连接”操作
  • map端连接
  • reduce 端连接 更常用
边数据分布
  • 是作业所需的额外的只读数据,已辅助处理主数据集
  • 利用JobConf来配置作业
  • 分布式缓存
MapReduce库类

转载于:https://my.oschina.net/mrq/blog/3102237

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值