数据结构和算法
chduan_10
这个作者很懒,什么都没留下…
展开
-
统计一篇文章中出现次数最多的前k个词
应该考虑文件大小和词的多少,有一个1G大小的一个文件,里面每一行是一个词,词的大小不超过16字节,内存限制大小是1M。返回频数最高的100个词。于每个词x,取hash(x)%5000,然后按照该值存到5000个小文件(记为x0,x1,...x4999)中。这样每个文件大概是200k左右。 如果其中的有的文件超过了1M大小,还可以按照类似的方法继续往下分,直到分解得到的小文件...原创 2018-08-01 11:03:29 · 3386 阅读 · 0 评论 -
常用的排序算法的时间复杂度和空间复杂度
排序法 最差时间分析 平均时间复杂度 稳定度 空间复杂度 冒泡排序 O(n2) O(n2) 稳定 O(1) 快速排序 O(n2) O(n*log2n) 不稳定 O(log2n)~O(n) 选择排序 O(n2) O(n2) 稳定 O(1) 二叉树排序 O(n2) ...转载 2018-08-28 09:59:04 · 383 阅读 · 0 评论 -
大数据处理-Bitmap
MapReduce是一种编程模型,用于大规模数据集(大于1TB)的并行运算。概念"Map(映射)"和"Reduce(归约)"Bit-map空间压缩和快速排序去重1. Bit-map的基本思想 32位机器上,对于一个整型数,比如int a=1 在内存中占32bit位,这是为了方便计算机的运算。但是对于某些应用场景而言,这属于一种巨大的浪费,因为我们可以用对应的32bit位对应存储十进制的...转载 2018-09-13 15:48:47 · 244 阅读 · 0 评论