使用hadoop进行大规模数据处理（转自搜索研发部官方博客）

最新推荐文章于 2022-07-21 08:38:10 发布

hoppboy

最新推荐文章于 2022-07-21 08:38:10 发布

阅读量730

点赞数

文章标签： hadoop 任务 mapreduce 分布式计算集群算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/hoppboy/article/details/6668921

版权

本文介绍了Hadoop的基本概念，包括Map和Reduce的运作原理，HDFS的特性，以及节点与槽位的概念。并通过实例展示了如何利用Hadoop进行大规模数据的全局排序，强调了标尺抽取的均匀性和减少shuffle操作的重要性。总结了Hadoop作为数据驱动计算模型的优势，适合处理大规模、低相关性的数据任务。

摘要由CSDN通过智能技术生成

(2011-4-27 02:04:03)

标签： hadoop 分类：数据结构与算法

1. Hellow hadoop~~!

Hadoop（某人儿子的一只虚拟大象的名字）是一个复杂到极致，又简单到极致的东西。

说它复杂，是因为一个hadoop集群往往有几十台甚至成百上千台low cost的计算机组成，你运行的每一个任务都要在这些计算机上做任务的分发，执行中间数据排序以及最后的汇总，期间还包含节点发现，任务的重试，故障节点替换等等等等的维护以及异常情况处理。谁叫hadoop集群往往都是由一些平民计算机组成，没事儿罢个工什么的，实在是再寻常不过的事情。

而说其简单，则是因为，上面说到的那些，你通通不用管，你所需要做的，就是写一个程序，当然也可以是脚本，从标准输入读入一条数据，处理完之后，把结果输出到标准输出。

现在，或许你就明白了，hadoop就是一个计算模型。一个分布式的计算模型。

1.1Map和reduce

天下大事，分久必合、合久必分。

所谓分布式计算，就是把一大堆用于计算的数据材料切了，扔到多

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。