Hadoop-HDFS(二)hadoop 起源

2 hadoop  起源

2.1 发展历史

        

                                        Doug Cutting

1. 2002 年10月,Doug Cutting 和Mike Cafarella创建了开源网页爬虫项目Nutch。

2. 2003 年 10 月,Google 发表 Google File System 论文。

3. 2004 年 7 月,Doug Cutting 和 Mike Cafarella 在 Nutch 中实现了类似 GFS 的功能,即后来 HDFS 的前身。

4. 2004 年 10 月,Google 发表了 MapReduce 论文。

5. 2005 年 2 月,Mike Cafarella 在 Nutch 中实现了 MapReduce 的最初版本。

6. 2005 年 12 月,开源搜索项目 Nutch 移植到新框架,使用 MapReduce 和 NDFS 在 20个节点稳定运行。

7. 2006年1月,Doug Cutting加入雅虎,Yahoo!提供一个专门的团队和资源将Hadoop发展成一个可在网络上运行的系统。

8. 2006 年 2 月,Apache Hadoop 项目正式启动以支持 MapReduce 和 HDFS 的独立发展。

9. 2006 年 3 月,Yahoo!建设了第一个 Hadoop 集群用于开发。

10. 2006 年 4 月,第一个 Apache Hadoop 发布。

11. 2006 年 11 月,Google 发表了 Bigtable 论文,激起了 Hbase 的创建。

12. 2007 年 10 月,第一个 Hadoop 用户组会议召开,社区贡献开始急剧上升。

13. 2007 年,百度开始使用 Hadoop 做离线处理。

14. 2007 年,中国移动开始在“大云”研究中使用 Hadoop 技术。

15. 2008 年,淘宝开始投入研究基于 Hadoop 的系统——云梯,并将其用于处理电子商务相关数据。

16. 2008 年 1 月,Hadoop 成为 Apache 顶级项目。

17. 2008 年 2 月,Yahoo!运行了世界上最大的 Hadoop 应用,宣布其搜索引擎产品部署在一个拥有 1 万个内核的 Hadoop 集群上。

18. 2008 年 4 月,在 900 个节点上运行 1TB 排序测试集仅需 209 秒,成为世界最快。

19. 2008 年 8 月,第一个 Hadoop 商业化公司 Cloudera 成立。

20. 2008 年 10 月,研究集群每天装载 10TB 的数据。

21. 2009 年 3 月,Cloudera 推出世界上首个 Hadoop 发行版——CDH(Cloudera's Distribution including Apache Hadoop)平台,完全由开放源码软件组成。

22. 2009 年 6 月,Cloudera 的工程师 Tom White 编写的《Hadoop 权威指南》初版出版,后被誉为 Hadoop 圣经。

23. 2009 年 7 月 ,Hadoop Core 项目更名为 Hadoop Common;

24. 2009 年 7 月 ,MapReduce 和 Hadoop Distributed File System (HDFS) 成为 Hadoop 项目的独立子项目。

25. 2009 年 8 月,Hadoop 创始人 Doug Cutting 加入 Cloudera 担任首席架构师。

26. 2009 年 10 月,首届 Hadoop World 大会在纽约召开。

27. 2010 年 5 月 , IBM 提 供 了 基 于 Hadoop 的 大 数 据 分 析 软 件 ——InfoSphere BigInsights,包括基础版和企业版。

28. 2011 年 3 月,Apache Hadoop 获得 Media Guardian Innovation Awards 媒体卫报创新奖

29. 2012 年 3 月,企业必须的重要功能 HDFS NameNode HA 被加入 Hadoop 主版本。

30. 2012 年 8 月,另外一个重要的企业适用功能 YARN 成为 Hadoop 子项目。

31. 2014 年 2 月,Spark 逐渐代替 MapReduce 成为 Hadoop 的缺省执行引擎,并成为Apache 基金会顶级项目。

32. 2017 年 12 月,Release 3.0.0 generally available

2.2 核心组件

1. hadoop 通用组件 - Hadoop Common

包含了其他 hadoop 模块要用到的库文件和工具

2. 分布式文件系统 - Hadoop Distributed File System (HDFS)

运行于通用硬件上的分布式文件系统,高吞吐,高可靠

3. 资源管理组件 - Hadoop YARN

于 2012 年引入的组件,用于管理集群中的计算资源并在这些资源上调度用户应用。

4. 分布式计算框架 - Hadoop MapReduce

用于处理超大数据集计算的 MapReduce 编程模型的实现。

5. Hadoop Ozone: An object store for Hadoop.

6. Hadoop Submarine: A machine learning engine for Hadoop

2.3hadoop  关联项目

1. Apache Ambari 是一种基于 Web 的工具,支持 Apache Hadoop 集群的供应、管理和监控。Apache Ambari 支持 HDFS、MapReduce、Hive、Pig、Hbase、Zookeepr、Sqoop 和 Hcatalog 等的集中管理。也是 5 个顶级 hadoop 管理工具之一。

2. Avro™:数据序列化系统

3. Cassandra 是一套开源分布式 NoSQL 数据库系统。它最初由 Facebook 开发,用于储存收件箱等简单格式数据,集 GoogleBigTable 的数据模型与 Amazon Dynamo 的完全分布式的架构于一身,Facebook 于 2008 将 Cassandra 开源。

4. chukwa 是一个开源的用于监控大型分布式系统的数据收集系统。这是构建在 hadoop的 HDFS 和 MapReduce 框架之上的,继承了 hadoop 的可伸缩性和健壮性。Chukwa还包含了一个强大和灵活的工具集,可用于展示、监控和分析已收集的数据。

5. hive 是基于 Hadoop 的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的 sql 查询功能,可以将 sql 语句转换为 MapReduce 任务进行运行。

6. Mahout 提供一些可扩展的机器学习领域经典算法的实现,旨在帮助开发人员更加方便快捷地创建智能应用程序。Mahout 包含许多实现,包括聚类、分类、推荐过滤、频繁子项挖掘。此外,通过使用 Apache Hadoop 库,Mahout 可以有效地扩展到云中。

7. Apache Pig 是一个高级过程语言,适合于使用 Hadoop 和 MapReduce 平台来查询大型半结构化数据集。通过允许对分布式数据集进行类似 SQL 的查询,Pig 可以简化 Hadoop 的使用。

8. Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark 是 UC Berkeley AMP lab 开源的类Hadoop MapReduce 的通用并行框架,拥有MapReduce所具有的优点;但是 Job 中间输出结果可以保存在内存中,从而不再需要读写 HDFS,因此 Spark 能更好地适用于数据挖掘与机器学习等需要迭代的 MapReduce 的算法。

9. Tez 是 Apache 最新的支持 DAG 作业的开源计算框架。它允许开发者为最终用户构建性能更快、扩展性更好的应用程序。Hadoop 传统上是一个大量数据批处理平台。但是,有很多用例需要近乎实时的查询处理性能。还有一些工作则不太适合 MapReduce,例如机器学习。Tez 的目的就是帮助 Hadoop 处理这些用例场景。

10. ZooKeeper 是一个分布式的,开放源码的分布式应用程序协调服务,是 Google 的Chubby 一个开源的实现,是 Hadoop 和 Hbase 的重要组件。它是一个为分布式应用提供一致性服务的软件,提供的功能包括:配置维护、域名服务、分布式同步、组服务等。

11. HBase 是一个分布式的、高可靠性、高性能、面向列、可伸缩的分布式存储系统,该技术来源于 Fay Chang 所撰写的 Google 论文“Bigtable:一个结构化数据的分布式存储系统”。就像 Bigtable 利用了 Google 文件系统(File System)所提供的分布式数据存储一样,HBase 在 Hadoop 之上提供了类似于 Bigtable 的能力。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

plenilune-望月

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值