大数据技术连载-02-Hadoop的历史,架构,版本,生态,安装

02-Hadoop-01-简介

       Java开发

1.     历史

       hadoop从nutch而来,nutch又是从lucene而来。

       lucene--->nutch搜索引擎---->hadoop文本搜索库

       2002年,nutch无法存储海量网页

       2003.google.gfs论文-------->2004.nutch.ndfs----->hadoop.hdfs

       2004.google.mapreduce论文---------->2005 nutch.mapreduce

       2006 nutch.ndfs和nutch.mapreduce从nutch项目中独立成hadoop

2.     Hadoop组件结构

       Hadoop分为两部分,分布式文件系统和分布式计算模型。

              Hadoop
                     分布式文件系统hdfs

                            名称节点

                            数据节点

                     分布式计算模型mapduce
3.     应用架构

 

4.     版本演变
(1)      第一代 v1.0

              0.20

              0.21

              0.22

(2)      第二代 v2.0  in Java7

              0.23

              2.x

(3)      第三代 v3.0 in Java8

 

02-Hadoop-02-生态和应用方式

 

组件

功能

HDFS

分布式文件系统

MapReduce

分布式并行编程模型

YARN

资源管理和调度器

Tez

运行在YARN之上的下一代Hadoop查询处理框架

Hive

Hadoop上的数据仓库

HBase

Hadoop上的非关系型的分布式数据库

Pig

一个基于Hadoop的大规模数据分析平台,提供类似SQL的查询语言Pig Latin

Sqoop

用于在Hadoop与传统数据库之间进行数据传递

Oozie

Hadoop上的工作流管理系统

Zookeeper

提供分布式协调一致性服务

Storm

流计算框架

Flume

一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统

Ambari

Hadoop快速部署工具,支持Apache Hadoop集群的供应、管理和监控

Kafka

一种高吞吐量的分布式发布订阅消息系统,可以处理消费者规模的网站中的所有动作流数据

Spark

类似于Hadoop MapReduce的通用并行框架

webserver----->flume日志收集------>kafka数据队列----->spark实时处理--->hbase(mysql)存储-可视化

02-Hadoop-03-三种安装模式

       可以安装Windows版本

  • Hadoop包括三种安装模式:
  • 单机模式:只在一台机器上运行,存储是采用本地文件系统,没有采用分布式文件系统HDFS;
  • 伪分布式模式:存储采用分布式文件系统HDFS,但是,HDFS的名称节点和数据节点都在同一台机器上;
  • 分布式模式:存储采用分布式文件系统HDFS,而且,HDFS的名称节点和数据节点位于不同机器上。

 下节预告:分布式文件系统HDFS的原理

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值