hadoop（为什么不能使用数据库来对大量磁盘上的大规模数据进行分析呢，为什么要用MapReduce）

最新推荐文章于 2024-06-12 19:32:40 发布

张志飞

最新推荐文章于 2024-06-12 19:32:40 发布

阅读量993

点赞数

分类专栏： Hadoop 文章标签： hadoop mapreduce

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_28009065/article/details/78200689

版权

Hadoop 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

这些问题的答案来自磁盘的另一个发展趋势：寻址时间的提高远远慢于传输速率的提高。寻址是将磁头移动到特定磁盘位置进行读写操作的过程。它是导致磁盘操作延迟的主要原因，而传输速率取决于磁盘的带宽。
如果数据访问模式中包含大量的磁盘寻址，那么读取大量数据集所花的时间势必会更长（相较于流式数据读取模式），流式读取主要取决于传输速率。另一方面，如果数据库系统只要更新一小部分，那么传统的B树更有优势（关系型数据库中使用的一种数据结构，受限于寻址的比例）。但数据库系统更新大部分数据时，B树的效率比MapReduce低的多，因为需要使用“排序/合并”来重建数据库
这里写图片描述

MapReduce和关系型数据库之间的另一个区别在于他们所操作的数据集的结构化程度。结构化数据是具有既定格式的实体化数据，诸如xml文档或满足特定预定义格式的数据库表。这是RDBMS包括的内容。另一个方面，半结构化数据比较松散，虽然可能有格式，但经常被忽略，所以它只能用作对数据结构的一般指导。例如，一张电子表格，其结构是由单元格组成的网格，但是每个单元格自身可保存任何形式的数据。非结构化数据没有什么特别的内部结构，例如纯文本或图像数据。MapReduce对于非结构化或半结构化数据非常有效，因为在处理数据时才对数据进行解释。换句话说：MapReduce输入的键和值并不是数据固有的属性，而是由分析数据的人员来选择的。

这里写图片描述

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
hadoop（为什么不能使用数据库来对大量磁盘上的大规模数据进行分析呢，为什么要用MapReduce）

这些问题的答案来自磁盘的另一个发展趋势：寻址时间的提高远远慢于传输速率的提高。寻址是将磁头移动到特定磁盘位置进行读写操作的过程。它是导致磁盘操作延迟的主要原因，而传输速率取决于磁盘的带宽。如果数据访问模式中包含大量的磁盘寻址，那么读取大量数据集所花的时间势必会更长（相较于流式数据读取模式），流式读取主要取决于传输速率。另一方面，如果数据库系统只要更新一小部分，那么传统的B树更有优势（
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。