hadoop java hadoop-streaming

最新推荐文章于 2020-08-31 19:55:20 发布

帛逸TB

最新推荐文章于 2020-08-31 19:55:20 发布

阅读量1.5k

点赞数 1

分类专栏：算法学习文章标签： hadoop java list c

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/w28971023/article/details/6915306

版权

算法学习专栏收录该内容

15 篇文章 1 订阅

订阅专栏

通过java编写的hadoop程序与通过hadoop-streaming（c++）在reduce阶段的区别：

对于前者，由map阶段输出的<k,v>会将相同的k哈希到结构<k,list v>，并用一个reduce处理。因此在reduce中，得理完这个<k,list v>就可以输出。

对于后者，map输出也是<k,v>结构，同样也会将相同的k哈希到一起，但是，不是<k,list v>结构，而仍然是<k,v>结构，相同的k会在一起，因此，reduce阶段读入的一条记录仍然是<k,v>,在处理完成相同的记录之后，输出到标准输出即可。

也常这样做，在reduce中，定义一个全局的类，用map来保留统计结果，在while循环读取记录的时候，改写这个map。通常还会设定一个计数器，当读取记录大于20w，且当前读取的记录不等于前一条，则可以说明当前记录和前一条记录属于不同的组，就可以输出了。

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

帛逸TB CSDN认证博客专家 CSDN认证企业博客

码龄18年

26: 原创

23万+: 周排名

55万+: 总排名

36万+: 访问

: 等级

2330: 积分

194: 粉丝

148: 获赞

45: 评论

172: 收藏

私信

关注

热门文章

分类专栏

算法学习 15篇
互联网 3篇
C and C++ 22篇
perl 3篇
linux 3篇
无聊玩玩 12篇
机器学习 2篇

最新评论

RankNet学习思路
子瑜是橘子味: 博主你好想请问你一下就是排序学习中数据集中的feature是怎么得到的呀
GBDT（MART）迭代决策树入门教程 | 简介
Ni7oC: 博主讲的不太准确吧，这里是回归问题的提升树吧，当loss方法是平方误差的时候用残差计算，loss方法是一般损失函数就用用负梯度去近似残差。
RankNet学习思路
WIXBC: 对于加速RankNet的代码您能提供一下吗
GBDT（MART）迭代决策树入门教程 | 简介
qq_1394656263 回复生活不只*眼前的苟且: 所谓Gradient就是去拟合Loss function的梯度，正好损失函数（如果用平方损失函数的话）求导之后就是残差，不知道这样理解对不对
GBDT（MART）迭代决策树入门教程 | 简介
qq_32735621: 谷阿莫？?

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。