1.hadoop的认识

占有率: Hadoop57.5%   Hbase23.2%   

截至2012年12月23日, Apache Hadoop版本分为两代,我们将第一代Hadoop称为Hadoop 1.0,第二代Hadoop称为 Hadoop 2.0。第一代Hadoop包含三个大版本,分别是0.20.x,0.21.x和 0.22.x,其中,0.20.x最后演化成1.0.x,变成了稳定版,而0.21.x和0.22.x 则NameNode HA等新的重大特性。第二代Hadoop包含两个版本,分别是0.23.x和 2.x,它们完全不同于Hadoop 1.0 ,是一套全新的架构,均包含HDFS Federation和YARN两个系统,相比于0.23.x,2.x增加了 NameNode HA和Wire-compatibility 两个重大特性

Hadoop是:
Apache 开源软件基金会开发的,运用于大规模普通服务器上的,大数据存储 , 计算 , 分析的分布式存储系统和分布式运算框架  

Hadoop2.0
( 三部分组成 )
分布式文件系统HDFS :操作系统级别上的
资源分配系统Yarn ( 动态计算 <cpu[ 单位是路和颗 ] 内存 > 资源调度 谁先做谁后做等 )
分布式运算框架MapReduce !!!
BigTable
HBase
MR
 MR
GFS
HDFS

数据分析
数据检索
数据展现
数据分享

Hadoop 生态系统
Mahout
(驾驭大象的人)数据挖掘的工具包   基于MR的算法库
HBase
列式数据库Nosql
Hive
数据仓库 (用sql)
Avro
快速序列化 ,持久化(内存-->本地)   接口序列化开发工具
Zookeeper
通信的管理和协调    分布式协同调度
Flume
日志采集和管理   数据流收集工具
Sqoop
ETL:抽取 转化 加载
Pig
数据的预处理(有自己的语言)      类比Hive竞争关系

搜狗案例剖析
详情页+列表页+搜索页
date id key rank order url
搜索数据介绍

系统架构与核心功能模块:
WEB SERVER :<Server: 机架式 塔式 小机式 大机式 >
日志采集平台: traffic 流量
日志清洗 , 加载: rush+load
数据仓库:( Nosql-> 关系型数据库 -> 展现 web 页面)
离线分析系统
ETL 加载
关系型数据库
WEB 系统数据展示
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值