初识Hadoop

3 篇文章 0 订阅
2 篇文章 0 订阅

                                             初识Hadoop

1.Hadoop是什么

  • Hadoop是一个由Apache基金会所开发的分布式系统基础架构。(分布式:利用多台计算机解决某个问题)
  • 主要用来解决海量数据存储和海量数据的分析计算问题。(存储:HDFS框架   分析计算:MapReduce框架)

2.发展历史(略作了解)

  • Lucene--Doug Cutting开创的开源软件,用java写的代码,实现与Google类似的全文搜索功能,它提供了全文检索引擎的架构,包括完整的查询引擎和索引引擎。

  • 2001年年底成为apache基金会的一个子项目。

  • 对于大量数据的场景,Lucene面对与Google同样的困难。(主要是大量数据的存储和计算,貌似大量数据也就这点儿问题)

  • 通过学习和模仿Google解决这些问题的办法产生了微型版Nutch框架,主要借鉴Google发表的GFS,Map-Reduce,BigTable产生了HDFS,MapReduce,Hbase,奠定了Hadoop的基础。

  • 2003-2004年,Google公开了部分GFS和Mapreduce思想的细节,以此为基础Doug Cutting等人用了2年业余时间实现了DFS和Mapreduce机制,使Nutch性能飙升。

  • 2005 年Hadoop 作为 Lucene的子项目 Nutch的一部分正式引入Apache基金会。2006 年 3 月份,Map-Reduce和Nutch Distributed File System (NDFS) 分别被纳入称为 Hadoop 的项目中。名字来源于Doug Cutting儿子的玩具——大象。

  • Hadoop就此诞生并迅速发展,标志着云计算时代的来临。

3.Hadoop三大发行版本

  • Apache版本:原始,基础,适用于入门学习,免费。
  • Clloudera版本:对Apache版本的进一步封装,在大型互联网企业中使用较多,收费。
  • Hortonworks版本:2011年成立的Hortonworks是雅虎与硅谷风投公司Benchmark Capital合资组建。成立之初就吸纳了大约25名至30名专门研究Hadoop的雅虎工程师,上述工程师均在2005年开始协助雅虎开发Hadoop,贡献了Hadoop80%的代码。

4.Hadoop的优势

  • 高可靠性:如果计算或存储出现故障,因为Hadoop会维护多个工作数据副本,会及时对失败的节点进行重新分布处理。
  • 高扩展性:在集群间分布任务数据,可方便的扩展数千节点。
  • 高效性:在MapReduce思想下,Hadoop是并行运行的,能加快任务处理速度。
  • 高容错性:自动保存多份副本数据,并能自动将失败的任务重新分配。

5.Hadoop的组成

  • Hadoop HDFS:高可靠、高吞吐量的分布式文件系统。
  • Hadoop MapReduce:一个分布式的离线并行计算框架。
  • Hadoop YARN:作业调度与集群资源管理器的框架。
  • Hadoop Common:支持其他模块的工具模块。

以上内容为学习尚硅谷视频而做的笔记,如有问题请与我联系。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值