搜索引擎
文章平均质量分 81
gris0509
这个作者很懒,什么都没留下…
展开
-
开发自己的搜索引擎——Lucene 2.0+Heriterx—— Heritrix的使用入门
http://book.csdn.net/bookfiles/312/10031212848.shtml Lucene很强大,这点在前面的章节中,已经作了详细介绍。但是,无论多么强大的搜索引擎工具,在其后台,都需要一样东西来支援它,那就是网络爬虫Spider。网络爬虫,又被称为蜘蛛Spider,或是网络机器人、BOT等,这些都无关紧要,最重要的是要认识到,由于爬虫的存在,才使得搜索引转载 2009-11-15 13:46:00 · 2794 阅读 · 0 评论 -
Heritrix源码分析——isUrlVisited和politeness
一、isUrlVisited这主要是在Frontier里实现的,当一个链接要进入等待队列时需要先判断是否已经被抓取过,如果已经抓取过则不进入,否则进入。其中最重要的部分就是存储已抓取url的结构。为了提高效率,Heritrix在内部使用了Berkeley DB,BdbFrontier是唯一个具有实际意义的链接工厂。Heritrix中涉及存储url的主要的类有UriUniqFilter、原创 2009-11-15 13:23:00 · 3227 阅读 · 0 评论 -
开发自己的搜索引擎——Lucene 2.0+Heriterx——Heritrix的架构
http://book.csdn.net/bookfiles/312/10031212849.shtml10.2 Heritrix的架构在上一节中,详细介绍了Heritrix的使用入门。读者通过上一节的介绍,应该已经能够使用Heritrix来进行简单的网页抓取了。那么,Heritrix的内容究竟是如何工作的呢?它的设计方面有什么突出之处?本节就将介绍Heritrix的几个主要组件,转载 2009-11-15 13:40:00 · 2383 阅读 · 0 评论 -
Heritrix 架构
Heritrix项目介绍Heritrix工程始于2003年初,IA的目的是开发一个特殊的爬虫,对网上的资源进行归档,建立网络数字图书馆。在过去的6年里,IA已经建立了400TB的数据。 IA期望他们的crawler包含以下几种:宽带爬虫:能够以更高的带宽去站点爬。主题爬虫:集中于被选择的问题。持续爬虫:不仅仅爬更当前的网页还负责爬日后更新的网页。实验爬虫:对爬虫技术进转载 2009-11-15 14:09:00 · 2014 阅读 · 0 评论 -
lucene中的ranking算法
http://www.blogjava.net/tim-wu/archive/2008/02/09/179504.html 说明见Similarity.java的javadoc信息(http://lucene.apache.org/java/2_3_2/api/core/overview-summary.html):算法请参考javadoc的,它使用的是Vector Space Mo转载 2009-11-15 14:14:00 · 1438 阅读 · 0 评论 -
在lucene的ranking算法中使用Language Model
最近,网体作业要求改进Lucene的ranking算法,我使用了语言模型来进行改进,下面都是我个人的想法,很多地方还不成熟。Lucence的ranking算法是基于VSM模型的,把文档和查询表示成向量空间模型中的向量,通过计算向量之间的余弦值来给文档排序。在这里,ranking算法使用Language Model来替代。1、Language Model的思想把query的产生原创 2009-11-24 08:59:00 · 2506 阅读 · 0 评论