02-Hadoop-01-简介
Java开发
1. 历史
hadoop从nutch而来,nutch又是从lucene而来。
lucene--->nutch搜索引擎---->hadoop文本搜索库
2002年,nutch无法存储海量网页
2003.google.gfs论文-------->2004.nutch.ndfs----->hadoop.hdfs
2004.google.mapreduce论文---------->2005 nutch.mapreduce
2006 nutch.ndfs和nutch.mapreduce从nutch项目中独立成hadoop
2. Hadoop组件结构
Hadoop分为两部分,分布式文件系统和分布式计算模型。
Hadoop
分布式文件系统hdfs
名称节点
数据节点
分布式计算模型mapduce
3. 应用架构
4. 版本演变
(1) 第一代 v1.0
0.20
0.21
0.22
(2) 第二代 v2.0 in Java7
0.23
2.x
(3) 第三代 v3.0 in Java8
02-Hadoop-02-生态和应用方式
组件 | 功能 |
HDFS | 分布式文件系统 |
MapReduce | 分布式并行编程模型 |
YARN | 资源管理和调度器 |
Tez | 运行在YARN之上的下一代Hadoop查询处理框架 |
Hive | Hadoop上的数据仓库 |
HBase | Hadoop上的非关系型的分布式数据库 |
Pig | 一个基于Hadoop的大规模数据分析平台,提供类似SQL的查询语言Pig Latin |
Sqoop | 用于在Hadoop与传统数据库之间进行数据传递 |
Oozie | Hadoop上的工作流管理系统 |
Zookeeper | 提供分布式协调一致性服务 |
Storm | 流计算框架 |
Flume | 一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统 |
Ambari | Hadoop快速部署工具,支持Apache Hadoop集群的供应、管理和监控 |
Kafka | 一种高吞吐量的分布式发布订阅消息系统,可以处理消费者规模的网站中的所有动作流数据 |
Spark | 类似于Hadoop MapReduce的通用并行框架 |
webserver----->flume日志收集------>kafka数据队列----->spark实时处理--->hbase(mysql)存储-可视化
02-Hadoop-03-三种安装模式
可以安装Windows版本
- Hadoop包括三种安装模式:
- 单机模式:只在一台机器上运行,存储是采用本地文件系统,没有采用分布式文件系统HDFS;
- 伪分布式模式:存储采用分布式文件系统HDFS,但是,HDFS的名称节点和数据节点都在同一台机器上;
- 分布式模式:存储采用分布式文件系统HDFS,而且,HDFS的名称节点和数据节点位于不同机器上。
下节预告:分布式文件系统HDFS的原理