百度Hadoop分布式系统揭秘：4000节点集群

最新推荐文章于 2021-02-28 17:16:29 发布

baiyunl

最新推荐文章于 2021-02-28 17:16:29 发布

阅读量212

点赞数

分类专栏： hadoop 文章标签：百度 Hadoop 算法 NoSQL Mapreduce

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/baiyunl/article/details/83910224

版权

hadoop 专栏收录该内容

29 篇文章 0 订阅

订阅专栏

在 NoSQL 方面，之前了解到百度对 Hadoop 和 hypertable 都有研究，而且 hypertable 方面更是作为其主要赞助商之一，但之前和百度的一些朋友了解到百度内部对 hypertable 倒是使用不多，相反在 Hadoop 方面倒是有比较大的应用实例。下面一篇文章描述了百度内部4000个结点的 Hadoop 集群的一些技术细节。

百度的高性能计算系统(主要是后端数据训练和计算)目前有4000节点，超过10个的集群，最大的集群规模在1000个节点以上。每个节点由8核 CPU以及16G内存以及12TB硬盘组成，每天的数据生成量在3PB以上。规划当中的架构将有超过1万个节点，每天的数据生成量在10PB以上。

底层的计算资源管理层采用了Agent调度不同类型的计算分别给MPI结构的算法和Map-Reduce和DAG算法应用等。而通过调度的分配，可以让HPC高性能计算集群和大规模分布式集群各得其所的计算相应数据。

百度通过HCE对streaming作业的排序，压缩，解压缩，内存控制进行了优化并提供了C++版的MapReduce接口。

百度HCE语言的有关内容，HCE是基于C++的Hadoop环境，是一个全功能C++环境，可以避开Java语言对于释放内存和资源申请的弊端，并在调用数据时绕开Java语言的所有关节，极大的提升算法效率。

百度的调度器是在capacity-scheduler的基础上根据自身业务改进的。

百度计划对shuffle流程进行大幅改造

来源：http://www.cnblogs.com/chinacloud/archive/2010/11/08/1871592.html

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。