- 博客(1)
- 收藏
- 关注
原创 Hash算法学习笔记
SimHashgoogle对于网页去重使用的是simhash,他们每天需要处理的文档在亿级别,大大超过了我们现在文档的水平。该章节参考大牛博客《Similarity estimation techniques from rounding algorithms》),其通过hash算法让文本变为一系列由0-1构成的哈希值,并通过单词重要性加权获得simhash值。 simhash算法,将句子转化为ha
2016-10-18 17:15:33 472
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人