MapReduce 大数据学习第三天

最新推荐文章于 2024-10-10 23:43:41 发布

dream__future

最新推荐文章于 2024-10-10 23:43:41 发布

阅读量80

点赞数

文章标签： hadoop mapreduce 大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/dream__future/article/details/132339499

版权

reduce个数 mapred.reduce.tasks

多了：

shuffle开销大，输出大量小文件

少了：

单次执行慢，出错再试错成本高

MapReduce和HDFS采用Java实现，默认提供Java编程接口，streaming框架允许程序使用任何语言，方便已有程序向Hadoop平台移植

Map和reduce都是标准输入标准输出，但是外面可以套一个Java的壳让它对语言不再强依赖

cat input | mapper | sort | reducer > output

看看本地可不可以跑通，sort是在模拟shuffle

c/c++编写的程序可以快一点效率高

streaming默认只能处理文本数据，如果处理二进制数据可以把二进制的key和value进行base64编码转换成文本

这样的话两次数据拷贝解析（分割）会花费一段时间带来额外开销，但是由于这种开发方式本来就注重时效性，所以可以忽略

MapReduce制定参数

-input 指定作业的输入文件的HDFS的路径，支持用*通配符支持指定多个文件或目录，可反复使用

-output 指定作业输出文件的HDFS路径，必须不存在，并且有权限创建，只能使用一次

-mapper 需要有，执行map阶段，通过什么方式执行map进程例如 "python mapper.py"前面是运行程序，后面是脚本

-reducer 可以没有，比如简单的过滤就可以没有

-file 分发用，小的文件 map和reduce的执行文件，要用的输入文件

类似的还有 -casheFile， -casheArchive分别用于向计算节点分发HDFS文件和HDFS压缩文件（已经在hdfs上），前面一个是已经有的文件，后面是一个文件体系

-jobconf （D）

配置参数

mapred.job.name 作业名

mapred.job.priority 作业优先级

mapred.job.map.capacity 最多同时运行map任务数

mapred.job.reduce.capacity 最多同时运行reduce任务数

mapred.task.timeout 任务没有响应（输入输出）的最大时间

mapred.compress.map.output map的输出是否压缩

mapred.map.output.compression.codec map的输出压缩方式

mapred.output.compress reduce的输出是否压缩

mapred.output.compression,codec reduce的输出压缩方式

stream.map.otput.field.separator map的输出分隔符

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

dream__future CSDN认证博客专家 CSDN认证企业博客

码龄2年

39: 原创

119万+: 周排名

13万+: 总排名

3万+: 访问

: 等级

490: 积分

91: 粉丝

97: 获赞

14: 评论

150: 收藏

私信

关注

热门文章

分类专栏

最新评论

怎么在GitHub上下载东西
hb_leung: 谢谢分享
零一背包和完全背包问题
CSDN-Ada助手: 算法技能树或许可以帮到你：https://edu.csdn.net/skill/algorithm?utm_source=AI_act_algorithm
C++基础知识补充（2）
CSDN-Ada助手: 恭喜您写了第15篇博客，内容涵盖了C++基础知识的补充，让读者受益匪浅。希望您能继续保持创作的热情，继续分享更多关于C++的知识和经验。或许下一步可以考虑分享一些实际项目中的应用技巧，这样读者们也能更好地将知识应用到实际工作中。谢谢您的分享，期待您的更多精彩文章！
c++基础知识补充(3)
CSDN-Ada助手: 恭喜你写了第16篇博客！看来你对c++基础知识有着很深的理解和研究。对于下一步的创作建议，我觉得你可以考虑写一些实际项目中的应用经验，或者是一些高级特性的深入探讨。当然，这只是我的建议，希望对你有所帮助。期待你的下一篇文章！
洛谷 P1638
CSDN-Ada助手: 恭喜您在洛谷上发布了第18篇博客“洛谷 P1638”！您的持续创作精神真的很令人钦佩。希望您能继续保持这样的创作热情，不断探索更多有趣的话题，展现更多独特的见解。或许可以考虑在未来的博客中加入一些个人的经历和感悟，这样能够更好地与读者产生共鸣。期待您更多的精彩作品，加油！

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。