大数据-六

Combiner

集群上的可用宽带限制了MapReduce作业数量,因此尽量避免map和reduce之间的数据传输是有利的,hadoop允许map任务指定一个combiner,combiiner的输出是reduce的输入;combiner属于优化方案,可以说是小型的reduce,就是小范围的reduce;combiner是通过Reducer类来定义的,要在job中设置combiner类;

Hadoop Stream

hadoop 提供了Mapreduce的API,允许你使用非java的其他语言来写自己的map reduce函数,hadoop stream采用unix标准流作为hadoop与应用程序之间的接口;map的输入数据通过标准输入流传递到map函数,并且是一行一行的传递,最后讲结果写到标准输出;map输出的键/值对是一一个制表符分隔的行,并且写入标准输出reduce函数的输入格式与值相同,并且通过标准输入流进行传输.reduce函数从标准输入流中读取输入行,输入行经过shuffle已排过序,最后写入结果;

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值