算法
passer199101
这个作者很懒,什么都没留下…
展开
-
simhash算法介绍和实现
simhash是google用来处理海量文本去重的算法。 google出品,你懂的。 simhash最牛逼的一点就是将一个文档,最后转换成一个64位的字节,暂且称之为特征字,然后判断重复只需要判断他们的特征字的距离是不是package cn.allydata.util;import java.io.IOException;import java.io.StringReader;import ja原创 2016-04-29 13:47:01 · 1784 阅读 · 0 评论 -
余弦相似性算法
余弦相似性算法的具体介绍参考:http://www.ruanyifeng.com/blog/2013/03/cosine_similarity.html下面是我根据上边的介绍进行的java语言的实现:import java.io.IOException;import java.io.StringReader;import java.util.Collections;import java.ut原创 2016-04-29 13:58:22 · 703 阅读 · 0 评论 -
倒排索引
http://es.xiaoleilu.com/052_Mapping_Analysis/35_Inverted_index.html原创 2016-04-29 14:00:01 · 281 阅读 · 0 评论 -
BloomFilter
Bloom Filter是由Bloom在1970年提出的一种多哈希函数映射的快速查找算法。通常应用在一些需要快速判断某个元素是否属于集合,但是并不严格要求100%正确的场合。详细内容: http://www.cnblogs.com/heaad/archive/2011/01/02/1924195.htmlBloom Filter的实现(java版本): https://github.com/ma原创 2016-04-29 14:00:31 · 330 阅读 · 0 评论 -
PageRank算法
详细内容参考http://blog.csdn.net/Leonis_v/article/details/50531032PageRank算法原理PageRank的计算充分利用了两个假设:数量假设和质量假设。步骤如下: 1)在初始阶段:网页通过链接关系构建起Web图,每个页面设置相同的PageRank值,通过若干轮的计算,会得到每个页面所获得的最终PageRank值。随着每一轮的计算进行,网页当前的原创 2016-04-29 14:00:57 · 307 阅读 · 0 评论 -
用人话解释机器学习中的Logistic Regression(逻辑回归)
这是我见过的最容易看懂的介绍逻辑回归的文章。对于其他很多介绍机器学习的文章,我表示看不懂,专业术语太多,专业性太强(其实本来想说,我甚鄙视之,但是想想算了,他们又不是写给小白看的)。原创 2017-03-17 11:04:45 · 753 阅读 · 0 评论