hadoop生态系统介绍

1.hadoop生态系统主流核心技术:
Zookeeper、HDFS、MapReduce、HBase、Hive、Pig、Spark

2.hadoop2.0与hadoop1.0相比的主要提升点:
Hadoop 1.0指的是版本为Apache Hadoop 0.20.x、1.x或者CDH3系列的Hadoop,内核主要由HDFS和MapReduce两个系统组成,其中,MapReduce是一个离线处理框架,由编程模型(新旧API)、运行时环境(JobTracker和TaskTracker)和数据处理引擎(MapTask和ReduceTask)三部分组成。
Hadoop 2.0指的是版本为Apache Hadoop 0.23.x、2.x或者CDH4系列的Hadoop,内核主要由HDFS、MapReduce和YARN三个系统组成,其中,YARN是一个资源管理系统,负责集群资源管理和调度,MapReduce则是运行在YARN上离线处理框架,它与Hadoop 1.0中的MapReduce在编程模型(新旧API)和数据处理引擎(MapTask和ReduceTask)两个方面是相同的。相对于1.0,2.0引入了HDFS Federation用于解决DataNode过多造成NameNode资源不足的问题,同时还实现了HA以及使用Yarn来细化资源与任务的管理。
3.大数据(hadoop)与关系型数据库的优缺点:
hadoop的hdfs支持海量数据量存储,mapreduce支持对海量数据的分布式处理
关系型数据库虽然可以搭建集群,但是当数据量达到一定限度之后查询处理速度会变得很慢,且对机器性能要求很高。
其实这两个东西不是同类,hadoop是一个分布式云处理架构,倾向于数据计算,而关系型数据库倾向于数据存储。
   3.1 Hadoop的优点:
   可扩展:存储与计算上都可扩展;
   经济:Hadoop是基于Apache的开源项目,可运行在普通PC上;
   可靠:基于分布式的存储与计算;
   高效:基于分布式的计算可大大提高效率;
   同时可支持结构化和非结构化的数据;
  3.2 Hadoop缺点:
   不支持事务
   性能优化需要一定的探索过程

  3.3 关系型数据库优点:
  成熟稳定;
  事务型更新操作支持性好;
  3.4 缺点:
  软硬件投资高;
  不支持非结构化数据;
 

转载于:https://my.oschina.net/u/1866459/blog/1546203

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值