HDFS：思想

最新推荐文章于 2024-06-24 19:01:01 发布

家道消乏

最新推荐文章于 2024-06-24 19:01:01 发布

阅读量102

点赞数

分类专栏： Hadoop基础文章标签： hdfs hadoop 大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/lian582796149/article/details/118219775

版权

Hadoop基础专栏收录该内容

18 篇文章 0 订阅

订阅专栏

写的不到位的地方，欢迎评论指出不足之处

单机处理

假设

有一个 1T的文件

I/O 磁盘处理速度是 500MB/s

（机器硬盘：100+MB/s、固态硬盘：500MB/s、高速接口：1G - 3G/s ）

分析

1T 约 1000GB、1GB = 1000MB、1000GB = 500MB * 2000、即 2000秒

2000秒 / 60秒约 30分钟

即：循环一次需要30分钟，若一直找不到匹配数据，就要一直循环下去（30分钟 * N次）

规避I/O提高效率

一种

（重复字符串）

文件每次读取一行

readLine().hashCode % 数量（hashCode的值是唯一的，数量决定需要分割成多少块）

切割数量越多，内存压力越小，结果的数值一定小于数量

只有重复的数据，结果才会是一样的，才会分散到相同的块里

之后再对小文件进行处理

即：readLine进行一遍

对所有小文件进行一遍

共计时长：60分钟

注：适用不是数值，不用排序时，可做散列特征

二种

（数值全排序）

hashCode 不适用：读一行数值为3，hashCode 后会影响原数据特征

readLine() 进行判断数值区间，然后根据区间分散到指定块中

再对所有块分别进行内部排序，在新的文件中追加数据

即：readLine进行一遍

对所有小文件进行一遍

共计时长：60分钟

注：外部有序（按区域排序），内部无序（排序乱序）

三种

（数值全排序）

利用数据结构

如：每次读取 50MB数据，进行排序后放在一个块中

外部无序（第1块里有：1、2、100、500，第二块：3、4、5、6），内部有序（排序后才形成的）

多机处理

简易说明：

1T文件切割2000份，每份500MB，交于2000台机器处理。
HashCode % 数量：相当于要切割多少块，只有内容一样其结果才会一致，才会放入相同的块中
假设数据均匀
1号机：负责将1号块的内容，从所有机器上拉取回来，然后再进行数据处理
2号机：负责处理2号块......
以此类推
最后可得出结果或是全排序

注：

多机处理在数据分割和数据拉取合并时，时间相对会长，而数据处理时，由于已经分成很多块，容量变小，处理速度就会很快。速度快慢与硬件IO、网络等因素有关
临时处理数据，之后不再使用，适用单机处理

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

家道消乏 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。