Hadoop集群在互联网企业的应用
1. 京东商城
(1) 源起:为pop商家进行日志分析服务
(2) 瓶颈
性能瓶颈:采用Oracle RAC(2节点),IBM小型机,由于数据量极大,无法满足时效要求
成本瓶颈:小型机再进行高配和节点扩展,价格太贵
(3) Hadoop集群作为解决方案
20多个节点的hadoop集群
数据定时从收集服务器装载到hadoop集群(周期为天极或小时级)
数据经过整理(预处理)后放进数据仓库系统,数据仓库是基于hive架构的,使用Hive的主要原因是技术人员基本都是基于Oracle数据库的技能,由于Hive支持SQL查询,因而技能可以平稳过渡
数据仓库查询统计的结果会被导到hbase,然后和应用进行连接,应用捕鱼hive直接连接的原因,是基于效率的考虑。导出数据到hbase由自行开发的一段c程序完成
应用即portal通过API与hbase连接获取数据
(4) 遇到的挑战
(5) 心得体会
(6) 部门结构
2.Hadoop在淘宝和支付宝的应用
(1)
(2)对hadoop源起的修改
改进Namenode单点问题
增加安全性
改善Hbase的稳定性
改进反哺Hadoop社区
(3)管理模式
集团统一管理
Hadoop运维团队
Hadoop开发团队
数据仓库团队(Hive)
(4)准实时的流数据处理技术
(5)淘宝数据魔方
(6) 架构图
(7)量子恒道
(8)oceanbase
整体数据分布
数据演进过程
3.Hadoop在百度的应用
(1)
(2)挑战
(3)分布式计算2.0
(4)HDFS2.0
(5)MAP-reduce2.0