大数据
crazyhacking
like a hacker
展开
-
字符串之输出所有字母组合相同的单词
有个题目,就是给你100W个字典顺序的单词,让输出所有字母组成相同的单词,比如post,stop,pots。 我的方法是: hash映射 视为26进制数 每个计算hash值 然后找出其它种组合的哈希值看是否存在剪枝的策略 是如过进行到后边,不查询前边的例如stop 那么不查询post或者pots 因为p这样是O(N)?一般的方法好像是《编程珠玑》上的w原创 2012-10-21 23:38:52 · 3394 阅读 · 0 评论 -
大数据处理的方法
感觉基本思想就是hash+桶划分。比较重要的是桶划分(数据量较大,适合topN问题),位图(数据量较小使用),堆(数据量较小),字典树(数据量大,种类少)类型包括 可以一次读入内存的,不可以一次读入内存的。可以一次读入内存的:位图(数据量较小使用),堆(数据量较小),字典树(数据量大,种类少)不可以:桶划分,字典树(数据量大,种类少)一原创 2012-11-21 20:46:55 · 2018 阅读 · 0 评论 -
simhash
http://grunt1223.iteye.com/blog/964564原创 2013-09-09 16:18:21 · 1060 阅读 · 0 评论