了解Hadoop生态圈

Apache Hadoop是什么

简介

    Apache Hadoop是Apache基金会下的开源的(遵循ASF 2.0)软件项目,提供可靠的、可扩展的、分布式计算。
    Apache Hadoop 软件库是一种框架,允许开发人员,仅使用简单的编程模式,基于计算机集群的,实现大数据的分布式处理。
    Apache Hadoop是Google开源系统的Java实现,包括以下模块:
      - Hadoop Common:基础模块,支撑其他模块 
      - Hadoop Distributed File System, HDFS  实现GFS,一种分布式文件系统,提供大数据的高吞吐量访问。 
      - YARN    Yet Another Resource Negotiate,一种任务调度和资源管理的框架。       
      - MapReduce   实现MapReduce,一种,基于YARN的、处理大数据的并行计算框架。YARN同时支持SparkStorm等其他并行框架。 

相关项目

Hadoop生态圈

Hadoop生态圈

ambari:基于Web的Apache 集群的配置、管理、监控工具。
avro:数据序列化系统。
HBase:可扩展的、面向列的分布式数据库,支持大表的结构化数据存储。
Hive:批量查询与分析的数据仓库基础设施。支持数据摘要和临时查询。
mathout:可扩展的机器学习和数据挖掘库。
Pig:解决并行计算的高级数据流语言以及计算框架。
spark:Hadoop数据的高速、通用计算引擎。支持多种应用:ETL、机器学习、流处理、图谱计算。
zookeeper:高性能的分布式协调服务。

HIVE

  • Hive是建立在 Hadoop 上的数据仓库基础构架,基于MapReduce计算框架。
  • Hive提供了一系列的工具,可以用来进行数据提取转化加载(ETL),这是一种可以存储、查询和分析存储在 Hadoop中的大规模数据的机制。
  • Hive 定义了简单的类 SQL 查询语言,称为 HQL,它允许熟悉 SQL 的用户查询数据。同时,这个语言也允许熟悉 MapReduce 开发者的开发自定义的 mapper 和 reducer 来处理内建的 mapper 和 reducer无法完成的复杂的分析工作。
  • Hive 最佳使用场合是大数据集的批处理作业,例如,网络日志分析。不适应低延时的事务,例如OLAP。

Hadoop1.0与2.0的比较

Hadoop版本差异

Hadoop 2.0之后,引入YARN,支持其他分布式计算框架。例如Spark内存计算框架、Strorm实时计算框架。

YARN项目背景

直接原因,是 Map Reduce v1.0的问题
1. 扩展性差、单点故障
2. 难以支持MR v1.0之外的其他计算框架
其他原因,多种计算框架之间难以共享数据
1. MR离线计算框架
2. Storm实时计算框架
3. Spark内存计算框架

附录

Hadoop简单历程

2003-2004年  Google 公布GFS、MapReduce 思想
2003-2005年  Doug Cutting受启发,开发HDFS以及MapReduce项目,使Nutch的性能飙升
2005年       Hadoop作为Lucence的子项目并入Apache
2006年       Hadoop独立成为项目   


名字起源:Doug Cutting 儿子的黄色大象玩具名字

Hadoop 发展历程

  • 2004年— 最初的版本(现在称为HDFS和MapReduce)由Doug Cutting和Mike Cafarella开始实施。
  • 2006年1月— Doug Cutting加入雅虎。
  • 2006年2月— Apache Hadoop项目正式启动以支持MapReduce和HDFS的独立发展。 2006年2月—
  • 雅虎的网格计算团队采用Hadoop。 2006年4月— 标准排序(10 GB每个节点)在188个节点上运行47.9个小时。
  • 2006年5月— 雅虎建立了一个300个节点的Hadoop研究集群。
  • 2006年11月— 研究集群增加到600个节点。
  • 2006年12月— 标准排序在20个节点上运行1.8个小时,100个节点3.3小时,500个节点5.2小时,900个节点7.8个小时。
  • 2007年1月— 研究集群到达900个节点。 2007年4月— 研究集群达到两个1000个节点的集群。
  • 2008年4月— 赢得世界最快1TB数据排序在900个节点上用时209秒。
  • 2008年7月— 雅虎测试节点增加到4000个
  • 2008年9月— 2008年11月— Google宣布其MapReduce用68秒对1TB的程序进行排序
  • 2008年10月— 研究集群每天装载10TB的数据。
  • 2008年— 淘宝开始投入研究基于Hadoop的系统–云梯。
    云梯总容量约9.3PB,共有1100台机器,每天处理18000道作业,扫描500TB数据。
  • 2009年3月— 17个集群总共24 000台机器。 2009年3月— Cloudera推出CDH(Cloudera’s Dsitribution Including Apache Hadoop)
  • 2009年4月— 赢得每分钟排序,雅虎59秒内排序500GB(在1400个节点上)和173分钟内排序100 TB数据(在3400个节点上)。
  • 2009年5月— Yahoo的团队使用Hadoop对1 TB的数据进行排序只花了62秒时间。
  • 2009年7月— Hadoop Core项目更名为Hadoop Common;
  • 2009年7月— MapReduce 和 Hadoop Distributed File System (HDFS) 成为Hadoop项目的独立子项目。
  • 2009年7月— Avro 和 Chukwa 成为Hadoop新的子项目。
  • 2009年9月— 亚联BI团队开始跟踪研究Hadoop
  • 2009年12月—亚联提出橘云战略,开始研究Hadoop 2010年5月— Avro脱离Hadoop项目,成为Apache顶级项目。
  • 2010年5月— HBase脱离Hadoop项目,成为Apache顶级项目。 2010年5月— IBM提供了基于Hadoop 的大数据分析软件——InfoSphere BigInsights,包括基础版和企业版。
  • 2010年9月— Hive( Facebook) 脱离Hadoop,成为Apache顶级项目。
    2011年1月— ZooKeeper 脱离Hadoop,成为Apache顶级项目。 2011年3月— Apache Hadoop获得Media Guardian Innovation Awards 。
  • 2011年3月— Platform Computing 宣布在它的Symphony软件中支持Hadoop MapReduce API。
  • 2011年5月— Mapr Technologies公司推出分布式文件系统和MapReduce引擎——MapR Distribution for Apache Hadoop。
  • 2011年5月— HCatalog 1.0发布。该项目由Hortonworks 在2010年3月份提出,HCatalog主要用于解决数据存储、元数据的问题,主要解决HDFS的瓶颈,它提供了一个地方来存储数据的状态信息,这使得数据清理和归档工具可以很容易的进行处理。
  • 2011年4月— SGI( Silicon Graphics International )基于SGI Rackable和CloudRack服务器产品线提供Hadoop优化的解决方案。
  • 2011年5月— EMC为客户推出一种新的基于开源Hadoop解决方案的数据中心设备——GreenPlum HD,以助其满足客户日益增长的数据分析需求并加快利用开源数据分析软件。Greenplum是EMC在2010年7月收购的一家开源数据仓库公司。
  • 2011年6月— Calxeda公司(之前公司的名字是Smooth-Stone)发起了“开拓者行动”,一个由10家软件公司组成的团队将为基于Calxeda即将推出的ARM系统上芯片设计的服务器提供支持。并为Hadoop提供低功耗服务器技术。
  • 2011年6月— 数据集成供应商Informatica发布了其旗舰产品,产品设计初衷是处理当今事务和社会媒体所产生的海量数据,同时支持Hadoop。
  • 2011年7月— Yahoo!和硅谷风险投资公司 Benchmark Capital创建了Hortonworks公司,旨在让Hadoop更加鲁棒(可靠),并让企业用户更容易安装、管理和使用Hadoop。
  • 2011年8月— Cloudera公布了一项有益于合作伙伴生态系统的计划——创建一个生态系统,以便硬件供应商、软件供应商以及系统集成商可以一起探索如何使用Hadoop更好的洞察数据。
  • 2011年8月— Dell与Cloudera联合推出Hadoop解决方案——Cloudera Enterprise。Cloudera Enterprise基于Dell PowerEdge C2100机架服务器以及Dell PowerConnect 6248以太网交换机

参考

参考一:Hadoop的概念、版本、发展史

参考二:CSDN Hadoop

参考三:Hadoop概念了解及展望

参考四:博客

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值