解密百度大数据：百度是如何使用hadoop的，并且做了哪些改进？

最新推荐文章于 2020-11-18 08:08:52 发布

qunqun8889

最新推荐文章于 2020-11-18 08:08:52 发布

阅读量606

点赞数

分类专栏：大数据文章标签：大数据大数据开发大数据学习大数据入门 Hadoop

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qunqun8889/article/details/103694917

版权

百度利用Hadoop进行海量数据处理，包括日志统计、网页分析、商业分析等。为提升效率，百度对MapReduce策略、HDFS效率、Speculative执行策略进行了优化，并对资源使用进行控制。同时，面临MapReduce效率、HDFS效率和内存使用等问题，百度正致力于改进解决方案。

摘要由CSDN通过智能技术生成

引读：百度作为全球最大的中文搜索引擎公司，提供基于搜索引擎的各种产品，几乎覆盖了中文网络世界中所有的搜索需求,因此，百度对海量数据处理的要求是比较高的，要在线下对数据进行分析，还要在规定的时间内处理完并反馈到平台上。百度在互联网领域的平台需求要通过性能较好的云平台进行处理了，Hadoop就是很好的选择。

解密百度大数据：百度是如何使用hadoop的，并且做了哪些改进？

在百度，Hadoop主要应用于以下几个方面：

日志的存储和统计;

网页数据的分析和挖掘;

商业分析，如用户的行为和广告关注度等;

在线数据的反馈，及时得到在线广告的点击情况;

用户网页的聚类，分析用户的推荐度及用户之间的关联度。

MapReduce主要是一种思想，不能解决所有领域内与计算有关的问题，百度的研究人员认为比较好的模型应该如下图:

HDFS 实现共享存储，一些计算使用MapReduce解决，一些计算使用MPI解决，而还有一些计算需要通过两者来共同处理。因为MapReduce适合处理数据很大且适合划分的数据，所以在处理这类数据时就可以用MapReduce做一些过滤，得到基本的向量矩阵，然后通过MPI进一步处理后返回结果，只有整合技术才能更好地解决问题。

百度现在拥有3个Hadoop集群，总规模在700台机器左右，其中有100多台新机器和600多台要淘汰的机器(它们的计算能力相当

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。