Hash算法学习笔记

SimHashgoogle对于网页去重使用的是simhash,他们每天需要处理的文档在亿级别,大大超过了我们现在文档的水平。该章节参考大牛博客《Similarity estimation techniques from rounding algorithms》),其通过hash算法让文本变为一系列...

2016-10-18 17:15:33

阅读数 202

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭