占有率:
Hadoop57.5% Hbase23.2%
截至2012年12月23日,
Apache Hadoop版本分为两代,我们将第一代Hadoop称为Hadoop 1.0,第二代Hadoop称为
Hadoop 2.0。第一代Hadoop包含三个大版本,分别是0.20.x,0.21.x和
0.22.x,其中,0.20.x最后演化成1.0.x,变成了稳定版,而0.21.x和0.22.x
则NameNode HA等新的重大特性。第二代Hadoop包含两个版本,分别是0.23.x和
2.x,它们完全不同于Hadoop 1.0
,是一套全新的架构,均包含HDFS Federation和YARN两个系统,相比于0.23.x,2.x增加了
NameNode HA和Wire-compatibility
两个重大特性
Hadoop是:
Apache
开源软件基金会开发的,运用于大规模普通服务器上的,大数据存储
,
计算
,
分析的分布式存储系统和分布式运算框架
Hadoop2.0:
(
三部分组成
)
分布式文件系统HDFS
:操作系统级别上的
资源分配系统Yarn
:
(
动态计算
<cpu[
单位是路和颗
]
内存
>
资源调度
谁先做谁后做等
)
分布式运算框架MapReduce
:
!!!
BigTable
|
HBase
|
MR
|
MR
|
GFS
|
HDFS
|
数据分析
|
数据检索
|
数据展现
|
数据分享
|
Hadoop
生态系统
:
Mahout
|
(驾驭大象的人)数据挖掘的工具包 基于MR的算法库
|
HBase
|
列式数据库Nosql
|
Hive
|
数据仓库 (用sql)
|
Avro
|
快速序列化 ,持久化(内存-->本地) 接口序列化开发工具
|
Zookeeper
|
通信的管理和协调 分布式协同调度
|
Flume
|
日志采集和管理 数据流收集工具
|
Sqoop
|
ETL:抽取 转化 加载
|
Pig
|
数据的预处理(有自己的语言) 类比Hive竞争关系
|
搜狗案例剖析
详情页+列表页+搜索页
date id key rank order url
搜索数据介绍
系统架构与核心功能模块:
WEB SERVER :<Server:
机架式
塔式
小机式
大机式
>
日志采集平台:
traffic
流量
日志清洗
,
加载:
rush+load
数据仓库:(
Nosql->
关系型数据库
->
展现
web
页面)
离线分析系统
ETL
加载
关系型数据库
WEB
系统数据展示