Hadoop learning

1.Hadoop1.0和2.0的区别

1.0 = hdfs + mapreduce 

2.0 = hdfs + yarn + mapreduce + other dataprocess 

 

2.软件层次

1. 分布式存储层 HDFS

a,良好的扩展性

b,高容错性

c,适合PB以上的数据

组成: master name node + standby name node

        datanode存储实际的数据

        namenode建立数据的索引

缺点:1,不适合低延迟的访问(毫秒级)

        2,master slave 结构不适合小文件存储 

         3,不支持并发写入,随机修改

2.集群资源管理层 YARN

使得多个计算框架运行在一个集群里

以前只有一个mapreduce,后来又有了storm, spark计算框架

组成:Resource Manager + NodeManager(每一个节点)

 

1.提高资源利用率,避免多个计算框架使用不同的集群

2.引入中间层,来管理资源的分配(资源管理层)

3.可以减少集群运维人员

4.有利于数据共享,多个计算框架共享数据资源,避免数据在多个集群中移动

3.分步式计算层 spark storm等分布式计算框架

 

应用程序的多样性需要用到不同的计算框架

4.HIVE

直接写MapReduce程序是比较麻烦的,因此引入HIVE,它提供了HQL语句到MR的翻译,所以我们直接写HQL就好

5.Pig与HIVE解决的问题基本上是一致的,pig是一种新的语言,很多传统公司建议用HIVE即可

转载于:https://www.cnblogs.com/zhengchunhao/p/5615013.html

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值