大数据
Shawn.Hu
1
展开
-
如何在有限的内存限制下实现数十亿级手机号码去重
https://www.jianshu.com/p/b39eb55d4670版权申明原创文章:本博所有原创文章,欢迎转载,转载请注明出处,并联系本人取得授权。版权邮箱地址:banquan@mrdwy.com问题难点文本和数据的去重是经常要用到的重要操作,普通数量的文本处理并不存在技术上的难点,可以直接在内存中高效处理,但是如果涉及到的文本量达到了数十亿级别,直接在内存中处理文本去重工作几乎变成不可实现,例如假设有个文本中包含有20亿手机号码,每个手机号码共计11位数字,int最大值只能保存转载 2020-09-24 11:02:48 · 1058 阅读 · 0 评论 -
图解排序算法(三)之堆排序
https://www.cnblogs.com/chengxiao/p/6129630.html预备知识堆排序 堆排序是利用堆这种数据结构而设计的一种排序算法,堆排序是一种选择排序,它的最坏,最好,平均时间复杂度均为O(nlogn),它也是不稳定排序。首先简单了解下堆结构。堆 堆是具有以下性质的完全二叉树:每个结点的值都大于或等于其左右孩子结点的值,称为大顶堆;或者每个结点的值都小于或等于其左右孩子结点的值,称为小顶堆。如下图:同时,我们对堆中的结点按层进行编号,将这种逻辑结转载 2020-09-21 22:56:31 · 148 阅读 · 0 评论 -
大数据处理之哈希表(二)--出现频率最多的top xxx 位
https://blog.csdn.net/xx123427/article/details/79299894上篇文章中只是求了出现频次最高的值,可是大数据处理往往需求的是top 10 ,top 100或者某一段区间的数据。显然只定义一个Hash a是不能放下的。如果是求出现频次top100呢?最起码定义 Hash arr[100]吧。比如拿计数器10000长度和数据范围为32767来说。我们最少要分4次,分别是数据取余4后 0 1 2 3的四种情况第一次余数为0,即4的倍数这一组...转载 2020-09-14 15:16:26 · 890 阅读 · 0 评论 -
大数据处理之Hash哈希表(一)
https://blog.csdn.net/xx123427/article/details/79299894现在的网络公司对于数据的处理的非常看重的。比如拿百度来说,10大热搜词就是从海量的用户搜索的数据中找到的,我们想的很简单,只要把所有用户搜索的数据按搜索次数 排列下来,随便用个快排?归并?取前10种出现频次最高的不同的数据就好了,可是用户搜索的数据实在是太多了。使用快排归并那种内部排序是需要我们使用电脑内存的,现在电脑一般都是4-8G的内存。这可能连数据百分之1都存放不下。数据都不齐全,何谈排.转载 2020-09-14 15:15:20 · 791 阅读 · 0 评论 -
《Hadoop基础教程》之初识Hadoop
http://blessht.iteye.com/blog/2095675 Hadoop一直是我想学习的技术,正巧最近项目组要做电子商城,我就开始研究Hadoop,虽然最后鉴定Hadoop不适用我们的项目,但是我会继续研究下去,技多不压身。 《Hadoop基础教程》是我读的第一本Hadoop书籍,当然在线只能试读第一章,不过对Hadoop历史、核心技术转载 2015-06-01 12:16:49 · 815 阅读 · 0 评论 -
Spark入门(Python版)
http://blog.jobbole.com/86232/Hadoop是对大数据集进行分布式计算的标准工具,这也是为什么当你穿过机场时能看到”大数据(Big Data)”广告的原因。它已经成为大数据的操作系统,提供了包括工具和技巧在内的丰富生态系统,允许使用相对便宜的商业硬件集群进行超级计算机级别的计算。2003和2004年,两个来自Google的观点使Hadoop成为可能:一个分布转载 2015-06-01 17:50:51 · 1995 阅读 · 0 评论