Hadoop 简介
1 Hadoop 是什么
Hadoop 是一个由 Apache 基金会所开发的分布式系统基础架构
主要解决,海量数据的存储和海量数据的分析计算问题
广义上来说,Hadoop 通常是指一个更广泛的概念——Hadoop 生态圈
2 Hadoop 的起源
Lucene——Doug Cutting 开创的开源软件,用 Java 书写代码,实现与 Google 类似的全文搜索功
能,它提供了全文检索引擎的架构,包括完整的查询引擎和索引引擎
2001 年年底成为 apache 基金会的一个子项目
对于大数量的场景,Lucene 面对与 Google 同样的困难:存储困难,检索速度慢。
学习和模仿 Google 解决这些问题的办法 :微型版 Nutch
可以说 Google 是 hadoop 的思想之源(Google 在大数据方面的三篇论文)
GFS —>HDFS
Map-Reduce —>MapReduce
BigTable —>HBase
2003-2004 年,Google 公开了部分 GFS 和 Mapreduce 思想的细节,以此为基础 Doug Cutting
等人用了 2 年业余时间实现了 DFS 和 Mapreduce 机制,使 Nutch 性能飙升
2005 年 Hadoop 作为 Lucene的子项目 Nutch的一部分正式引入 Apache基金会。2006 年 3 月
份,Map-Reduce 和 Nutch Distributed File System (NDFS) 分别被纳入称为 Hadoop 的项目中
名字来源于 Doug Cutting 儿子的玩具大象
Hadoop 就此诞生并迅速发展,标志这云计算时代来临
点击查看官方发布的版本日志
3 Hadoop 的发行版本
Hadoop 三大发行版本: Apache、Cloudera、Hortonworks。
Apache 版本最原始(最基础)的版本,对于入门学习最好。
Cloudera 在大型互联网企业中用的较多。
Hortonworks 文档较好。
3.1 Apache Hadoop
官网地址:http://hadoop.apache.org/releases.html
下载地址:https://mirrors.tuna.tsinghua.edu.cn/apache/hadoop/common/
3.2 Cloudera Hadoop
官网地址:https://www.cloudera.com
下载地址:https://www.cloudera.com/downloads/cdh/5-16-2.html
2008 年成立的 Cloudera 是最早将 Hadoop 商用的公司,为合作伙伴提供 Hadoop 的商用解决方
案,主要是包括支持、咨询服务、培训。
2009 年 Hadoop 的创始人 Doug Cutting 也加盟 Cloudera 公司。Cloudera 产品主要为 CDH,
Cloudera Manager,Cloudera Support
CDH 是 Cloudera 的 Hadoop 发行版,完全开源,比 Apache Hadoop 在兼容性,安全性,稳定
性上有所增强。
Cloudera Manager 是集群的软件分发及管理监控平台,可以在几个小时内部署好一个 Hadoop
集群,并对集群的节点及服务进行实时监控。Cloudera Support 即是对 Hadoop 的技术支持。
Cloudera 的标价为每年每个节点 4000 美元。Cloudera 开发并贡献了可实时处理大数据的
Impala 项目。
3.3 Hortonworks Hadoop
官网地址:https://hortonworks.com/products/data-center/hdp/
下载地址:https://hortonworks.com/downloads/#data-platform
2011 年成立的 Hortonworks 是雅虎与硅谷风投公司 Benchmark Capital 合资组建.
公司成立之初就吸纳了大约 25 名至 30 名专门研究 Hadoop 的雅虎工程师,上述工程师均在
2005 年开始协助雅虎开发 Hadoop,贡献了 Hadoop80%的代码。
雅虎工程副总裁、雅虎 Hadoop 开发团队负责人 Eric Baldeschwieler 出任 Hortonworks 的首席
执行官。
Hortonworks 的主打产品是 Hortonworks Data Platform(HDP),也同样是 100%开源的产
品,HDP 除常见的项目外还包括了 Ambari,一款开源的安装和管理系统.
HCatalog,一个元数据管理系统,HCatalog 现已集成到 Facebook 开源的 Hive 中。
Hortonworks 的 Stinger 开创性的极大的优化了 Hive 项目。Hortonworks 为入门提供了一个非
常好的,易于使用的沙盒。
Hortonworks 开发了很多增强特性并提交至核心主干,这使得 Apache Hadoop 能够在包括
Window Server和Windows Azure在内的 microsoft Windows平台上本地运行。定价以集群为基
础,每 10 个节点每年为 12500 美元。
目前 Cloudera 与 Hortonworks 公司已经联合创建更为高端的大数据应用平台
请关注:https://www.cloudera.com/about/news-and-blogs.html
4 Hadoop 的优势
高可靠性
因为 Hadoop 假设计算元素和存储会出现故障,因为它维护多个工作数据副本,在出现故障时可
以对失败的节点重新分布处理。
高扩展性
在集群间分配任务数据,可方便的扩展数以千计的节点。
高效性
在 MapReduce 的思想下,Hadoop 是并行工作的,以加快任务处理速度。
高容错性
自动保存多份副本数据,并且能够自动将失败的任务重新分配。
5 Hadoop 组成
Hadoop HDFS
一个高可靠、高吞吐量的分布式文件系统。
Hadoop MapReduce
一个分布式的离线并行计算框架。
Hadoop YARN
作业调度与集群资源管理的框架。
Hadoop Common
支持其他模块的工具模块(Configuration、RPC、序列化机制、日志操作)。