Hadoop在国内主要以互联网公司为主,下面主要介绍大规模使用Hadoop或研究Hadoop的公司。
1. 百度
百度在2006年就关注了Hadoop并开始调研和使用,截止2012年,总的集群规模超过7个集群,单集群超过2800台机器节点,Hadoop机器总数超过15000台机器,总的存储容量超过100PB,已经使用的超过74PB,每天提交的作业数目超过6600个,每天的输入数据量已经超过7500TB,输出超过1700TB。
百度的Hadoop集群为整个公司的数据团队大搜索团队社区产品团队广告团队,以及LBS团体提供统一的计算和存储服务,主要应用包括:
数据挖掘与分析
日志分析平台
数据仓库系统
推荐引擎系统
凤巢广告特征抽取与建模
点击计费和反作弊
用户行为分析系统
网盟策略的流式计算
同时百度在Hadoop的基础上还开发了自己的日志分析平台、数据仓库系统,以及统一C++编程接口,并对Hadoop深度改造,开发了Hadoop C++扩展HCE系统。
2. 阿里巴巴