大数据笔记（五）：Hadoop

最新推荐文章于 2023-07-04 09:36:25 发布

Ding_xiaofei

最新推荐文章于 2023-07-04 09:36:25 发布

阅读量732

点赞数

分类专栏：大数据云计算

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Ding_xiaofei/article/details/80488629

版权

Hadoop的优化和发展

Hadoop的局限和不足

Hadoop1.0的核心组件（仅指MapReduce和HDFS，不包括Hadoop生态系统内的Pig、 Hive、 HBase等其他组件），主要存在以下不足：
•抽象层次低，需人工编码
•表达能力有限
•开发者自己管理作业（ Job）之间的依赖关系
•难以看到程序整体逻辑
•执行迭代操作效率低
•资源浪费（ Map和Reduce分两阶段执行）
•实时性差（适合批处理，不支持实时交互式）

针对hadoop的优化

Hadoop的优化与发展主要体现在两个方面：
•一方面是Hadoop自身两大核心组件MapReduce和HDFS的架构设计改进
•另一方面是Hadoop生态系统其它组件的不断丰富，加入了Pig、 Tez、 Spark和Kafka等新组件

HDFS 2.0的新特性

HDFS HA

HDFS1.0组件及其功能回顾（具体请参见第3章HDFS）名称节点保存元数据：
（ 1）在磁盘上： FsImage和EditLog
（ 2）在内存中：映射信息，即文件包含哪些块，每个块存储在哪个数据节点

HDFS Federation

1、HDFS 1.0中存在的问题
•单点故障问题
•不可以水平扩展（是否可以通过纵向扩展来解决？）
•系统整体性能受限于单个名称节点的吞吐量
•单个名称节点难以提供不同程序之间的隔离性
•HDFS HA是热备份，提供高可用性，但是无法解决可扩展性、系统性能和隔离性

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
大数据笔记（五）：Hadoop

Hadoop的优化和发展Hadoop的局限和不足Hadoop1.0的核心组件（仅指MapReduce和HDFS，不包括Hadoop生态系统内的Pig、 Hive、 HBase等其他组件），主要存在以下不足： •抽象层次低，需人工编码 •表达能力有限 •开发者自己管理作业（ Job）之间的依赖关系 •难以看到程序整体逻辑 •执行迭代操作效率低 •资源浪费（ Map和Reduce...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。