Search Engine/Info Retrieval
文章平均质量分 87
sunbin0123
这个作者很懒,什么都没留下…
展开
-
搜索引擎和信息检索实践_课后习题_第三章
3.1 假设有两个文档集合,较小的集合中全部都是有用的、正确的、高质量的信息。较大的集合中含有一些高质量的文档,但还有一些低质量的、过时的、书写较差的文本。只对较小的集合建立搜索引擎的原因是什么?对两个集合都建立搜索引擎的原因是什么?3.2 假设有一个网络连接,每秒可以传输10MB的数据。如果每个网页大小为10K,需要500毫秒进行传输,网络爬虫需要多少个线程才能完全利用网络连原创 2013-03-21 15:27:25 · 3608 阅读 · 1 评论 -
Simhash实践
在搜索引擎中,一个重要的工作就是发现网页的相似性,本次,我们介绍其中一个基于词表示的重复内容检测方法——Simhash。在对比网页相似性的时候,最关键的问题是效率问题,大量的网页的比对往往给服务器造成很大负载。Simhash combines the advantages of the word-based similarity measures with the efficien原创 2013-04-01 16:37:03 · 1400 阅读 · 0 评论