一、什么是hadoop
狭义上hadoop就是指一个框架:HDFS分布式文件系统(存储)、MapReduce分布式离线计算框架(计算)、YARN资源调度框架。
广义上的hadoop:除了包含hadoop框架之外,还有溢写辅助框架:Flume日志数据采集、Sqoop ELT关系型数据库数据采集、Hive深度依赖hadoop框架完成计算、Hbase大数据领域的数据库。
hadoop就是一个适合大数据的分布式存储和计算的平台。目前所讲述的就是狭义的hadoop框架。
二、hadoop的起源
著名的:
2003年和2004年谷歌的三篇论文(三驾马车):
GFS:Google的分布式文件系统(Google File System)
MapReduce:Google的分布式计算框架
BigTable:大型分布式数据库
发展演变关系:
GFS —> HDFS
Google MapReduce —> Hadoop MapReduce
BigTable —> HBase
三、hadoop的特点
四、hadoop的发行版本
Apache Hadoop版本(最原始版本)
优点:开源免费可以拥有全世界的开源贡献,代码更新代码比较快。
缺点:版本的升级和版本的维护以及版本之间的兼容性问题比较显著。
ClouderManager收费版本 CDH版本 ---生产环境使用(大部分生产环境使用该版本)
HortonWorks 免费开源版本 HDP版本 (已被Clodermanager收购)-- 生产版本使用生
五、hadoop版本更迭
略过...飞过...
六、hadoop优缺点
优点:(第三节图片上的四个优点)
a.具有存储和处理数据能力的高可靠性。
b.通过计算机集群分配数据,完成存储和计算任务,这些集群可以方便的扩展到数以千计的节点中,具有高扩展性。
c.能够在多个节点间进行动态的移动数据,保证各个节点的动态平衡,处理速度非常快,具有高效性。
d.能够自动保存数据多个副本,并且能够自动将失败的任务重新分配,具有高容错性。
缺点:
a.不适合低延迟的数据访问。
b.不能高效存储大量小文件。
c.不支持多用户写入并任意修改文件。