大数据技术连载-02-Hadoop的历史，架构，版本，生态，安装

最新推荐文章于 2022-07-31 12:13:38 发布

tuoluofo

最新推荐文章于 2022-07-31 12:13:38 发布

阅读量154

点赞数

文章标签：分布式数据库数据仓库大数据 hadoop

本文链接：https://blog.csdn.net/tuoluofo/article/details/115714271

版权

Java开发

hadoop从nutch而来，nutch又是从lucene而来。

lucene--->nutch搜索引擎---->hadoop文本搜索库

2002年，nutch无法存储海量网页

2003.google.gfs论文-------->2004.nutch.ndfs----->hadoop.hdfs

2004.google.mapreduce论文---------->2005 nutch.mapreduce

2006 nutch.ndfs和nutch.mapreduce从nutch项目中独立成hadoop

Hadoop分为两部分，分布式文件系统和分布式计算模型。

名称节点

数据节点

0.20

0.21

0.22

0.23

2.x

组件	功能
HDFS	分布式文件系统
MapReduce	分布式并行编程模型
YARN	资源管理和调度器
Tez	运行在YARN之上的下一代Hadoop查询处理框架
Hive	Hadoop上的数据仓库
HBase	Hadoop上的非关系型的分布式数据库
Pig	一个基于Hadoop的大规模数据分析平台，提供类似SQL的查询语言Pig Latin
Sqoop	用于在Hadoop与传统数据库之间进行数据传递
Oozie	Hadoop上的工作流管理系统
Zookeeper	提供分布式协调一致性服务
Storm	流计算框架
Flume	一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统
Ambari	Hadoop快速部署工具，支持Apache Hadoop集群的供应、管理和监控
Kafka	一种高吞吐量的分布式发布订阅消息系统，可以处理消费者规模的网站中的所有动作流数据
Spark	类似于Hadoop MapReduce的通用并行框架