大数据思维引导

最新推荐文章于 2024-07-29 09:10:44 发布

sun_lm

最新推荐文章于 2024-07-29 09:10:44 发布

阅读量1k

点赞数

分类专栏： Hadoop 文章标签：大数据 big data

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/sun_lm/article/details/122025842

版权

Hadoop 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

1、需求

有一个大小为1TB的文件，里面有许多行，其中只有两行一样，这两行的位置未知，需要找出这两行。

2、单机处理思路

假设如下：

单机可用内存500M
IO速度为500M/s，读取1TB的文件约2000s，约30分钟。

与硬盘IO时间相比，CPU计算以及内存存取时间可以忽略。因此，以下估算中，主要估算的是硬盘IO时间，忽略了CPU计算以及内存存取时间。

最简单的思路：

读取文件的第一行到内存中
读取文件的第二行，并与第一行内存做比较
如果两行内容相同，则找到结果
如果两行内容不同，则将第二行从内存中清理掉，并读取下一行进行比较
将所有行都读取一遍与第一行进行比较，耗费时间约30分钟
假设这1TB文件共有N行，最坏情况（最后两行相同）下需要（N-1）*30分钟才能得到结果

思路优化：

创建2000个空文件
依次读取文件的每一行，并计算这一行的hashcode
将hashcode与2000取模，得到一个0~2000的数，假设为n
将这一行内容追加写入到之前创建的第n个文件中
经过一次IO时间，即30分钟，可以得到2000个小文件（假设均匀分布，每个文件约500M）
经过以上处理后，内容相同的两行一定处于同一个文件中
读取第一个小文件全部内容到内存中（可用内存500M）查找是否有相同行
最坏情况下（相同两行处于最后一个小文件中），总共需要2*30分钟得出结果

PS：假设问题是需要对1TB文件中的每一行（假设为数字）进行排序，也可以采用类似的思路：

思路一（外部无序，内部有序）：

读取文件的每一行，根据hashcode将其散列到2000个小文件中
对每个小文件中的内容进行排序
得到2000个小文件，每个小文件内部内容有序，但是两个小文件之间的内容是无序的
采用归并算法，最终得到一个有序大文件

思路二（外部有序，内部无序）

同样将1TB大文件拆分为2000个小文件
拆分方式不再是根据hashcode拆分，而是根据每行中数字的大小进行拆分
比如大小为0~99的放到第一个文件中，大小为100~199的放到第二个文件中
最终得到的2000个小文件，每两个小文件之间的内容是有序的，小文件内部是无序的
对每个小文件内部内容进行排序
最后将每个小文件拼接起来即得到一个有序大文件

3、集群处理思路

使用集群处理上述找相同两行内容的需求：

同样假设硬盘IO为500M/s
假设每台机器内存为500M
假设网络IO为100M/s

PS：忽略1TB数据分发到2000台机器的时间，假设这1TB文件本来就是采用分布式存储系统分散存在2000台机器中的，每台机器存储数据为500M

2000台机器，每台机器并行将各自存储的500M数据根据hashcode各自拆分为2000个小文件，耗费时间约1s（每台机器读取数据为500M）
2000台机器，每台机器负责处理hashcode相同的文件，比如第一台机器负责处理2000台机器上所有hashcode为0的数据，第二台机器负责处理2000台机器上所有hashcode为1的数据
那么每台机器需要从其他机器上通过拉取它需要处理的文件，假设均匀分不下，则每台机器需要拉取的文件大小约为500M，花费时间约为5s
2000台机器并行计算，1秒得出结果
累计耗费总时间为7秒

参考链接：

清华大牛精讲Hadoop全套教程_从入门到精通（HDFS集群/MapReduce底层原理、源码~~）_哔哩哔哩_bilibili

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
大数据思维引导

1、需求有一个大小为1TB的文件，里面有许多行，其中只有两行一样，这两行的位置未知，需要找出这两行。2、单机处理思路假设如下：单机可用内存500M IO速度为500M/s，读取1TB的文件约2000s，约30分钟。与硬盘IO时间相比，CPU计算以及内存存取时间可以忽略。因此，以下估算中，主要估算的是硬盘IO时间，忽略了CPU计算以及内存存取时间。最简单的思路：读取文件的第一行到内存中读取文件的第二行，并与第一行内存做比较如果两行内容相同，则找到结果如果两行内容不同，.
复制链接

扫一扫

专栏目录

sun_lm CSDN认证博客专家 CSDN认证企业博客

码龄10年

110: 原创

8万+: 周排名

173万+: 总排名

7万+: 访问

: 等级

1278: 积分

20: 粉丝

46: 获赞

13: 评论

330: 收藏

私信

关注

热门文章

分类专栏

最新评论

反射一、反射的基本概念
小锦鲤yaw: 太厉害啦，讲的好详细
九、Redis三种集群模式
Eaeyson: 图片失效了
九、Redis三种集群模式
瑾-妤: 集群模式不能详细讲讲吗？比如集群怎么实现高可用，集群各节点之间怎么通信，以及数据可以按照什么规则分散到集群中存储？
数据结构（五）：AVL树简介及Java实现
sun_lm: 感谢指出，回头空了我再看一下
数据结构（五）：AVL树简介及Java实现
qunhao: 删除方法有问题，只从被删除的节点开始回溯检测失衡处理，没有考虑到removeMin()方法里面被你取走一个最小的，也有可能导致子树的失衡。 [code=java] 50 ------------------ ¦ ¦ 27 75 ------ ------------ ¦ ¦ ¦ ¦ 25 30 70 90 --- --- ------ ¦ ¦ ¦ ¦ 35 73 85 95 --- ¦ 97 [/code] 例如移除75，85被转移上去，导致90这个树失衡没处理。 [code=java] 50 ------------------ ¦ ¦ 27 85 ------ --------- ¦ ¦ ¦ ¦ 25 30 70 90 --- --- --- ¦ ¦ ¦ 35 73 95 --- ¦ 97 [/code]

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。