基于Heritrix+Lucene的搜索引擎构建(2)——索引与搜索框架Lucene

    Lucene是apache软件基金会jakarta项目组的一个子项目,是一个开放源代码的全文检索引擎工具包,即它不是一个完整的全文检索引擎,而是一个全文检索引擎的架构,提供了完整的查询引擎和索引引擎,部分文本分析引擎(英文与德文两种西方语言)。Lucene的目的是为软件开发人员提供一个简单易用的工具包,以方便的在目标系统中实现全文检索的功能,或者是以此为基础建立起完整的全文检索引擎。

 

Lucene是一个基于Java的全文搜索,不是一个完整的搜索应用,而是一个代码库和API,可以方便地为应用提供搜索功能。 实际上Lucene的功能就是将开发人员提供的若干个字符串建立索引,然后提供一个全文搜索服务,用户将搜索的关键词提供给搜索服务,搜索服务告诉用户关键词出现的各字符串。

关于lucene的一些详细资料,可参考官方网站:http://lucene.apache.org/

之前有一个lucene中国的网站,对Lucene的相关原理、结构和API进行了较为详细的介绍,http://www.lucene.com.cn/.但现在好像无效了。

博客园里有bluepoint2009的一篇名为《Lucene3.6 入门指南》的文章值得参考。

  关于Lucene的一些入门实例,可参考博主提供的实例代码《lucene的建立检索学习实例源码》、《Lucene正则表达式查询RegenxQuery》、《Lucene过滤查询实例等。

 
这里,就不再对Lucene进行过多的阐述.
 
 
附加关于Lucene的从网上整理出来的文章:《 开放源代码的全文检索引擎 Lucene》。
 
 
 

 

 

 

转载于:https://www.cnblogs.com/sl-shilong/archive/2013/01/05/2846854.html

1.光盘中所附代码的运行环境 服务器Tomcat5.5版本 数据库采用MySQL 5.0 版本 JDK采用1.5.0 Spring采用1.2.8版本 DWR采用1.1.3版本 Windows平台 Tomcat 插件TomcatPlugin(下载地址:http://www.sysdeo.com/eclipse/tomcatpluginfr ) 2.本书所附光盘范例 Eclipse工程/ch2:原书第二章Eclipse工程文件 对文档预处理的源代码 对文档建立索引的源代码 对文档检索的源代码 使用Lucene检索和使用java.lang.String内置方法进行检索的效率比较 安装:直接在Eclipse中选取“import->Existing Project” Eclipse工程/ch7:原书第七章和第九章的Eclipse工程文件 使用PDFBox解析PDF文件 使用xpdf解析中文PDF文件 使用POI解析WORD和Excel文件 使用Jacob解析WORD文件 Google的Search API的使用 安装:直接在Eclipse中选取“import->Existing Project” Eclipse工程/ch9:原书第十二章的工程文件 使用正则表达式解析网页文件 使用HTMLParser解析网页文件 安装:直接在Eclipse中选取“import->Existing Project” Eclipse工程/heritrixProject:原书第十章的工程文件 在Eclipse配置完成的Heritrix源代码 自行开发的Heritrix的Extractor类:pconline 自行开发的Heritrix的FrontierScheduler类:pconline 自行开发的Heritrix的Extractor类:163mobile 自行开发的Heritrix的FrontierScheduler类:163mobile 安装:直接在Eclipse中选取“import->Existing Project” Eclipse工程/testDWR:原书第十三章的工程文件 完整的DWR开发环境 DWR在页面调用后台Bean类的实例 DWR操纵页面对象的实例 安装:直接在Eclipse中选取“import->Existing Project”,该工程由于是Web工程,因此需要TomcatPlugin插件。 Eclipse工程/z_mysearch:原书中的搜索引擎完整实例 数据库脚本 网页索引格式 构建词库的源代码 从网页中解析并构建产品信息文件的源代码 从产品信息文件构建索引的源代码 数据库操作类的源代码 基于Spring的业务层管理 检索的业务类源代码 检索的DAO源代码 检索的分页实现源代码 检索的AJAX实现源代码 安装:直接在Eclipse中选取“import->Existing Project”,该工程由于是Web工程,因此需要TomcatPlugin插件。 注:随光盘附带的mirror.rar文件是使用Heritrix从pconline网上抓取的手机信息页面(以网站镜象格式存储),在本书最后搜索引擎完整实例中需要使用到。由于光盘容量有限,笔者删除了原始镜像目录中一部分的网页,可能执行效果和书上不能完全一致,请读者读懂原理后灵活处理。 说明:因为mirror.rar文件引用了第三方网站的大量信息,这需要得到网站的授权,授权的办理需要一段时间,而本书的出版不能再被延误,故本次印刷的图书,mirror.rar文件不能放在光盘中,请读者谅解。请读者在理解书中讲述的原理与方法后灵活处理。 目前已有热心读者愿意为mirror.rar文件提供下载,在此对他们表示感谢。因为该文件需要的空间较大,初期下载地址可能会不确定,请读者发邮件询问本书责编:quyanlian@ptpress.com.cn,注明“Lucene下载地址咨询”。来函必复。 对于个别下载不方便的读者,我们也可以提供刻光盘并邮寄的服务,也请发邮件询问本书责编:quyanlian@ptpress.com.cn,注明“Lucene光盘邮寄”。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值