![](https://img-blog.csdnimg.cn/20201014180756930.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
信息检索
文章平均质量分 80
桔子O
这个作者很懒,什么都没留下…
展开
-
Heritrix源码分析(一)——包介绍
想了很久,还是先从Heritrix的包开始说起,然后再说类,最后讲下如何加工Heritrix,也就是将其打造成自己想要的爬虫,这里补充下,我用的版本是1.14.3. 同时欢迎加入我建的Heritrix爬虫群一起讨论学习: 10447185 序号包名 说明1 org.apac转载 2014-05-01 16:13:20 · 598 阅读 · 0 评论 -
利用 Heritrix 构建特定站点爬虫
本文由浅入深,详细介绍了 Heritrix 在 Eclipse 中的配置、运行。最后对其进行扩展,介绍如何实现只抓取特定网站的页面。通过本文,读者可以了解 Heritrix 的相关特点以及在 Eclipse 中的配置运行,能够从零开始构建特定站点的专有爬虫,从而为网站增加全文检索服务。背景随着网站内容的增加,为其添加搜索功能是一个常见的需求,搜索引擎也已成为互联网最重要的应用之一。你是转载 2014-04-30 20:06:53 · 669 阅读 · 0 评论 -
搜索引擎查询扩展
查询扩展的动机:提高召回率问题:考虑查询q: [aircraft],某篇文档d包含“plane”, 但是不包含“aircraft”,显然对于查询q,一个简单的IR系统不会返回文档d,即使d是和q最相关的文档。我们试图改变这种做法:也就是说,我们会返回不包含查询词项的相关文档。方法:不考虑查询(即与查询无关)及其返回文档情况下对初始查询进行扩展和重构,即进行一次性的全局分析(比如分析整个文档转载 2014-04-02 10:02:53 · 1299 阅读 · 0 评论