搜索
文章平均质量分 92
sunny_ss12
这个作者很懒,什么都没留下…
展开
-
使用向量空间模型(df-idf)计算搜索文档与查询词的相关性
如果要实现一个搜索引擎,当搜索到与用户查询相关的文档后,需要按照搜索文档与查询词相关性的先后顺序显示文章标题与概要,所以需要一种办法计算用户查询和搜索文档的相关性,然后按照相关性由高到低进行排序。原创 2015-07-19 01:44:39 · 7677 阅读 · 2 评论 -
使用simhash算法对网页去重
如果搜索文档有很多重复的文本,比如一些文档是转载的其他的文档,只是布局不同,那么就需要把重复的文档去掉,一方面节省存储空间,一方面节省搜索时间,当然搜索质量也会提高。 simhash是google用来处理海量文本去重的算法。原创 2015-07-19 20:52:44 · 4480 阅读 · 0 评论