![](https://img-blog.csdnimg.cn/20201014180756918.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据
Fighting_dao
这个作者很懒,什么都没留下…
展开
-
大数据处理之Hash哈希表(一)
现在的网络公司对于数据的处理的非常看重的。比如拿百度来说,10大热搜词就是从海量的用户搜索的数据中找到的,我们想的很简单,只要把所有用户搜索的数据按搜索次数 排列下来,随便用个快排?归并?取前10种出现频次最高的不同的数据就好了,可是用户搜索的数据实在是太多了。使用快排归并那种内部排序是需要我们使用电脑内存的,现在电脑一般都是4-8G的内存。这可能连数据百分之1都存放不下。数据都不齐全,何谈排序之...转载 2019-07-27 18:50:23 · 372 阅读 · 0 评论 -
10亿个数据求前N大
首先,当看到这个题目的时候,我会先想到,这不是典型的topN问题吗? 所以最先能想到的就是排序,取前1000个数,或者部分排序,只排出前1000个数,但是这些方法时间复杂度都比较高。 所以可以用分治法,有些类似于快排中的partition的操作,随机选一个数t,然后对整个数组进行partition,会得到两部分,前一部分的数都大于t,后一部分小于t,如果说前一部分总数大于1000个,那就继续在前一...原创 2019-07-27 17:24:01 · 641 阅读 · 0 评论