【面试】系统设计 | 难题挑战（不断更新中）

最新推荐文章于 2021-11-02 10:26:21 发布

白露塞纳

最新推荐文章于 2021-11-02 10:26:21 发布

阅读量154

点赞数

分类专栏：面试文章标签：难题系统设计

本文链接：https://blog.csdn.net/HeavenDan/article/details/113537789

版权

面试专栏收录该内容

36 篇文章 1 订阅

订阅专栏

本文探讨了在面对大规模数据时，如何进行分布式环境下的前100名求解和全局排序。提出了使用Spark思想、MapReduce分治策略以及粗调精调方法来解决此类问题，并提及了其他相关的海量数据处理挑战，如数据倾斜和Top K问题。

摘要由CSDN通过智能技术生成

一、问题

很多人面对问题，第一个想法是找有没有开源技术可以用一下。但我经常说服别人不要先去看什么开源技术可以用，而是从自己面对的问题出发独立思考，忘掉 MapReduce，忘掉 Apache Spark，忘掉 Apache Beam。如果这个世界一无所有，你会设计怎样的大规模数据处理框架？你要经常做一些思维实验，试试带领一下技术的发展，而不是永远跟随别人的技术方向。

1、大规模数据，分布式求前100，求全局排序

方法1：Spark思想
假如我有 100亿条数据，但是我们的内存只有1M，但是我们磁盘很大，我们现在要对这100亿条数据进行排序，是没法把所有的数据一次性的load进行内存进行排序的，这就涉及到一个外部排序的问题，我们的1M内存只能装进1亿条数据，每次都只能对这 1亿条数据进行排序，排好序后输出到磁盘，总共输出100个文件，最后怎么把这100个文件进行merge成一个全局有序的大文件。我们可以每个文件（有序的）都取一部分头部数据最为一个 buffer，并且把这 100个 buffer放在一个堆里面，进行堆排序，比较方式就是对所有堆元素（buffer）的head元素进行比较大小，然后不断的把每个堆顶的 buffer 的head 元素 pop 出来输出到最终文件中，然后继续堆排序，继续输出。如果哪个buffer 空了，就去对应的文件中继续补充一部分数据。最终就得到一个全局有序的大文件。
方法2：MR思想-用分治
……
方法3：粗调 + 精调
……