Lucene实战阅读笔记1

Solr Lucene子项目,支持从关系数据库和XML文档中提取原始数据,以及能够通过集成Tika来处理复杂文档。


Nutch Lucene子项目,它包含大规模的爬虫工具,能够抓取和分辨Web站点数据。


Heritrix 开源的Internet文档搜索程序。


Drods Lucene子项目,目前正处于筹备状态。


Aperture 它支持从Web站点、文件系统和右键中抓取,并解析和索引其中的文本数据。


谷歌企业连接管理工具 提供大量针对非Web形式的内容连接方案。



DBSight,Hibernate Search,LuSQL,Compass,Oracle/Lucene集成项目,可以无缝连接内容获取步骤和文档建立步骤就能轻易地对数据表进行索引和搜索操作。


Lucene并没有提供有关搜索范围的模块,但solr和nutch都提供了对索引拆分和复制的支持,Katta开源项目也提供这个功能。Elastic search提供了另一种解决方案。




Solr提供了完整搜索程序的大部分组建,作为服务器程序运行并提供一个管理界面(包含两种搜索模式),提供索引数据库内容的能力,提供类似于分组导航的终端功能,这些功能都是基于Lucene构建的。



另外,一些Web程序框架页提供了基于Lucene的搜索插件。例如,有一个适用于Grails开源项目的搜索插件,该插件基于Compass搜索引擎框架,而后者是采用Lucene作为后台的。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值