我们为什么需要MapReduce？

最新推荐文章于 2022-09-28 09:46:53 发布

Think_Higher

最新推荐文章于 2022-09-28 09:46:53 发布

阅读量2.7k

点赞数 3

分类专栏： Java生态圈文章标签： mapreduce 数据库关系型数据库

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/uniquewonderq/article/details/50618366

版权

Java生态圈专栏收录该内容

842 篇文章 57 订阅 ¥49.90 ¥99.00

订阅专栏

超级会员免费看

我们为什么需要MapReduce？

　　我们为什么不能使用数据库来对大量磁盘上的大规模数据进行批量分析呢？我们为什么要使用MapReduce？
　　
　　这些问题的答案来自磁盘的另一个发展趋势：寻址时间的提高远远慢于传输速率的提高。寻址是将磁头移动到特定磁盘位置进行读写操作的过程。它是导致磁盘操作延迟的主要原因，因而传输速率取决于磁盘的带宽。
　　
　　如果数据的访问模式中包含大量的磁盘寻址，那么读取大量数据集所化的时间势必会更长（相较于流式数据读取模式），流式读取主要取决于传输速率。另一方面，如果数据库系统只更新一小部分记录，那么传统的B树更有优势。但数据库系统更新大部分数据时，B树的效率比MapReduce低得多，因为需要使用“排序/合并”来重建数据库。
　　
　　许多情况下，可以将MapReduce视为关系型数据库管理系统的补充。两个系统之间的差异如下表所示。MapReduce比较适合以批处理的方式处理需要分析整个数据集的问题，尤其是即席分析。RDBMS（关系型数据库管理系统）适用于“点查询”和更新，数据集被索引后，数据库系统能够提供低延迟的数据检索和快速的少量数据更新。MapReduce适合一次写入，多次读取数据的应用&#

了解本专栏

超级会员免费看

关注

3
点赞
踩
3

收藏

觉得还不错? 一键收藏
打赏
0
评论
我们为什么需要MapReduce？

我们为什么需要MapReduce？　　我们为什么不能使用数据库来对大量磁盘上的大规模数据进行批量分析呢？我们为什么要使用MapReduce？　　　　这些问题的答案来自磁盘的另一个发展趋势：寻址时间的提高远远慢于传输速率的提高。寻址是将磁头移动到特定磁盘位置进行读写操作的过程。它是导致磁盘操作延迟的主要原因，因而传输速率取决于磁盘的带宽。　　　　如果数据的访问模式中包含大量的磁盘寻
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

Think_Higher 你的鼓励是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。