大数据基础知识之hadoop

最新推荐文章于 2023-11-06 16:34:27 发布

WSX_ton

最新推荐文章于 2023-11-06 16:34:27 发布

阅读量582

点赞数 2

分类专栏： hadoop 文章标签： hadoop 大数据基础知识介绍

本文链接：https://blog.csdn.net/WSX_ton/article/details/102879762

版权

本文介绍了Hadoop的发展历程，由Nutch项目起源，受谷歌三篇论文启发，成为Apache顶级项目。Hadoop包括HDFS、MapReduce等组件，形成了大数据生态圈。文章还详细阐述了Hadoop的三个主要公司版本：Apache、Hortonworks和Cloudera，以及1.x和2.x的架构模型，包括NameNode、SecondaryNameNode、DataNode、JobTracker、TaskTracker、ResourceManager和NodeManager的角色和功能。

摘要由CSDN通过智能技术生成

Hadoop

Hadoop的介绍以及发展历史
Hadoop三大公司发型版本介绍
Hadoop的架构模型（1.x，2.x的各种架构模型介绍）

一. Hadoop的介绍以及发展历史

Hadoop之父Doug Cutting
Alt

Hadoop最早起源于lucene下的Nutch。Nutch的设计目标是构建一个大型的全网搜索引擎，包括网页抓取、索引、查询等功能，但随着抓取网页数量的增加，遇到了严重的可扩展性问题——如何解决数十亿网页的存储和索引问题。
2003年、2004年谷歌发表的三篇论文为该问题提供了可行的解决方案。
——分布式文件系统（GFS），可用于处理海量网页的存储
——分布式计算框架MAPREDUCE，可用于处理海量网页的索引计算问题。
——分布式的结构化数据存储系统Bigtable，用来处理海量结构化数据。
Doug Cutting基于这三篇论文完成了相应的开源实现HDFS和MAPREDUCE，并从Nutch中剥离成为独立项目HADOOP，到2008年1月，HADOOP成为Apache顶级项目(同年，cloudera公司成立)࿰

最低0.47元/天解锁文章

WSX_ton

关注

2
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
大数据基础知识之hadoop

Hadoop目录Hadoop的介绍以及发展历史Hadoop三大公司发型版本介绍Hadoop的架构模型（1.x，2.x的各种架构模型介绍）一. Hadoop的介绍以及发展历史Hadoop之父Doug CuttingHadoop最早起源于lucene下的Nutch。Nutch的设计目标是构建一个大型的全网搜索引擎，包括网页抓取、索引、查询等功能，但随着抓取网页数量的增加，遇到了严...
复制链接

扫一扫