hadoop应用在哪些地方

本文介绍了Hadoop在淘宝、阿里巴巴、百度等大型互联网公司的具体应用场景和技术细节,包括集群规模、服务器配置、处理数据量等关键信息。

一直以来,我知道hadoop在淘宝应用很多,淘宝网是国内最大的Hadoop应用商之一。

2010年九月三号的数据显示:

淘宝集群的规模是
1.总容量为9.3PB,利用率77.09%。
2.共有1100台机器。
3.每天处理约18000道hadoop作业
4. 用户数474人,用户组38个
5.约18000道作业/天,扫描数据:约500TB/天用户数474人,用户组38个

其他:

HADOOP在阿里巴巴: 

用于处理商业数据的排序,并将其应用于阿里巴巴的ISEARCH搜索引擎,垂直商业搜索引擎。

节点数: 15台机器的构成的服务器集群

服务器配置: 8核CPU,16G内存,1.4T硬盘容量。

HADOOP在百度:

HADOOP主要应用日志分析,同时使用它做一些网页数据库的数据挖掘工作。

节点数:10 - 500个节点。

周数据量: 3000TB

 HADOOP在Facebook:

主要用于存储内部日志的拷贝,作为一个源用于处理数据挖掘和日志统计。

主要使用了2个集群:

一个由1100台节点组成的集群,包括8800核CPU(即每台机器8核),和12000TB的原始存储(即每台机器12T硬盘)

一个有300台节点组成的集群,包括2400核CPU(即每台机器8核),和3000TB的原始存储(即每台机器12T硬盘)

由此基础上开发了基于SQL语法的项目:HIVE

HADOOP在HULU

主要用于日志存储和分析

13台机器构成的集群 (8核PUC,单台机器:4TB硬盘)

基于HBASE数据库

HADOOP在TWITTER

使用HADOOP用于存储微博数据,日志文件和许多中间数据

使用基于HADOOP构件的Cloudera's CDH2系统,存储压缩后的数据文件(LZO格式)

HADOOP在雅虎:

主要用于支持广告系统及网页搜索

机器数:25000,CPU:8核

集群机器数:  4000 个节点  (2*4cpu boxes w 4*1TB disk & 16GB RAM)


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值