hadoop集群在互联网企业的应用(15)

Hadoop集群在互联网企业的应用

1. 京东商城

(1) 源起:为pop商家进行日志分析服务

(2) 瓶颈

性能瓶颈:采用Oracle RAC(2节点),IBM小型机,由于数据量极大,无法满足时效要求

成本瓶颈:小型机再进行高配和节点扩展,价格太贵

(3) Hadoop集群作为解决方案

20多个节点的hadoop集群

数据定时从收集服务器装载到hadoop集群(周期为天极或小时级)

数据经过整理(预处理)后放进数据仓库系统,数据仓库是基于hive架构的,使用Hive的主要原因是技术人员基本都是基于Oracle数据库的技能,由于Hive支持SQL查询,因而技能可以平稳过渡

数据仓库查询统计的结果会被导到hbase,然后和应用进行连接,应用捕鱼hive直接连接的原因,是基于效率的考虑。导出数据到hbase由自行开发的一段c程序完成

应用即portal通过API与hbase连接获取数据

(4) 遇到的挑战

clip_image002

(5) 心得体会

clip_image004

(6) 部门结构

clip_image006

2.Hadoop在淘宝和支付宝的应用

(1)

clip_image008

(2)对hadoop源起的修改

改进Namenode单点问题

增加安全性

改善Hbase的稳定性

改进反哺Hadoop社区

(3)管理模式

集团统一管理

Hadoop运维团队

Hadoop开发团队

数据仓库团队(Hive)

(4)准实时的流数据处理技术

clip_image010

(5)淘宝数据魔方

clip_image012

(6) 架构图

clip_image014

clip_image016

clip_image018

clip_image020

clip_image022

clip_image024

clip_image026

clip_image028

clip_image030

(7)量子恒道

clip_image032

(8)oceanbase

clip_image034

clip_image036

整体数据分布

clip_image038

数据演进过程

clip_image040

clip_image042

clip_image044

clip_image046

3.Hadoop在百度的应用

(1)

clip_image048

(2)挑战

clip_image050

(3)分布式计算2.0

clip_image052

(4)HDFS2.0

clip_image054

clip_image056

clip_image058

(5)MAP-reduce2.0

clip_image060

clip_image062

转载于:https://my.oschina.net/u/1462191/blog/213857

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值