Hadoop learning

最新推荐文章于 2024-08-26 17:41:15 发布

weixin_30274627

最新推荐文章于 2024-08-26 17:41:15 发布

阅读量50

点赞数

文章标签：大数据运维

原文链接：http://www.cnblogs.com/zhengchunhao/p/5615013.html

版权

1.Hadoop1.0和2.0的区别

1.0 = hdfs + mapreduce

2.0 = hdfs + yarn + mapreduce + other dataprocess

2.软件层次

1. 分布式存储层 HDFS

a,良好的扩展性

b,高容错性

c,适合PB以上的数据

组成： master name node + standby name node

datanode存储实际的数据

namenode建立数据的索引

缺点：1，不适合低延迟的访问（毫秒级）

2，master slave 结构不适合小文件存储

3，不支持并发写入，随机修改

2.集群资源管理层 YARN

使得多个计算框架运行在一个集群里

以前只有一个mapreduce,后来又有了storm, spark计算框架

组成：Resource Manager + NodeManager(每一个节点)

1.提高资源利用率，避免多个计算框架使用不同的集群

2.引入中间层，来管理资源的分配（资源管理层）

3.可以减少集群运维人员

4.有利于数据共享，多个计算框架共享数据资源，避免数据在多个集群中移动

3.分步式计算层 spark storm等分布式计算框架

应用程序的多样性需要用到不同的计算框架

4.HIVE

直接写MapReduce程序是比较麻烦的，因此引入HIVE，它提供了HQL语句到MR的翻译，所以我们直接写HQL就好

5.Pig与HIVE解决的问题基本上是一致的，pig是一种新的语言，很多传统公司建议用HIVE即可

转载于:https://www.cnblogs.com/zhengchunhao/p/5615013.html

weixin_30274627

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Hadoop learning

1.Hadoop1.0和2.0的区别1.0 = hdfs + mapreduce2.0 = hdfs + yarn + mapreduce + other dataprocess2.软件层次1. 分布式存储层 HDFSa,良好的扩展性b,高容错性c,适合PB以上的数据组成： master name node + standby name node...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。