Hadoop学习总结

最新推荐文章于 2020-11-04 05:35:38 发布

无忧V

最新推荐文章于 2020-11-04 05:35:38 发布

阅读量6.5k

点赞数 3

分类专栏：分布式文章标签： hadoop mapreduce hdfs 分布式

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weiganyi/article/details/45022163

版权

本文总结了Hadoop的学习要点，包括通过JobTracker与TaskTracker的分布式任务执行，MapReduce的工作流程，HDFS的数据存储机制，以及Hadoop生态系统中的Pig、Hive和HBase的角色与区别。此外，还介绍了Zookeeper在分布式服务中的作用。

摘要由CSDN通过智能技术生成

最近学习了hadoop这个框架，把自己的理解总结如下：

1、hadoop通过一个jobtracker分派任务到一系列tasktracker来运行，tasktracker同时向jobtracker返回任务运行结果。

jobtracker对作业的输入数据进行分片，然后为每个分片创建一个map任务，同时创建一定数量的reduce任务，并指派空闲的tasktracker来执行这些任务。

tasktracker从jobtracker处获取任务jar包以及分片的输入数据，然后新建jvm来执行，并定期反馈执行进度情况。

2、map任务就是进行原始数据的提取工作，提取数据后进行sufflix排序，排序后的数据作为reduce的输入，然后经过reduce的统计计算得到最后结果。

3、hdfs对数据进行分块，然后存储在datanote里，datanote向namenode报告自己存储的文件块，客户端通过访问namenode来得知构成文件的各个数据块的具体存放datanote，进而从datanote中读取整个文件。

4、hadoop作业的输入数据必须在作业执行前是固定的，然后才能进行数据的分片，所以不能胜任增量的流式数据处理作业。

5、mapreduce本身需要编写java代码，优化起来也比较复杂，而pig可以让用户通过脚本语句Latin来操作数据，并将脚本语句转换成mapreduce来在hadoop中执行，pig并不要求被操作的数据满足关系数据库模式。

6、hive构建于hadoop的数据仓库，能够对存储在HDFS中的数据增加元数据，从而提供SQL风格的数据操作，再将操作翻译成mapreduce来在hadoop中执行。

最低0.47元/天解锁文章

关注

3
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。