Lucene-Java全文搜索引擎

Lucene 目前是 Apache Jakarta 家族中的一个开源项目。也是目前最为流行的基于 Java 开源全文检索工具包。Apache Lucene是一个基于Java全文搜索引擎,利用它可以轻易地为Java软件加入全文搜寻功能。
Lucene 是目前最为流行的开放源代码全文搜索引擎工具包,隶属于Apache基金会,由资深全文索引/检索专家Doug Cutting所发起,并以其妻子的中间名作为项目的名称。Lucene不是一个具有完整特征的搜索应用程序,而是一个专注于文本索引和搜索的工具包,能够为应用程序添加索引与搜索能力。基于Lucene在索引及搜索方面的优秀表现,虽然由Java编写的Lucene具有天生的跨平台性,但仍被改编为许多其他语言的版本:Perl、Python、C++、.Net等。

同其他开源项目一样,Lucene具有非常好的架构,能够方便地在其基础上进行研究与开发,添加新功能或者开发新系统。Lucene本身只支持文本文件及少量语种的索引,并且不具备爬虫功能,而这正是Lucene的魅力所在,通过Lucene提供的丰富接口,我们可以根据自身的需要在其上添加具体语言的分词器,针对具体文档的文本解析器等,而这些具体的功能实现都可以借助于一些已有的相关开源软件项目、甚至是商业软件来完成,这也保证了Lucene在索引及搜索方面的专注性。目前,通过在Lucene的基础上加入爬行器、文本解析器等也形成了一些新的开源项目,如LIUS、Nutch等。并且Lucene的索引数据结构已经成了一种事实上的标准,为许多搜索引擎所采用。

一、环境搭建
环境:Ubuntu12.04+Nutch1.7+Solr4.7+Tomcat6.0+Hbase
1):搭建搜索引擎Demo以及应用Hbase的数据储存特点完成从指定网站站点抓取数据并根据设置KeyWorld进行检索过滤,将过滤结果存储在Hbase中,并通过Hbase进行二次筛选过滤,将结果输出到CSV中。
目标:
- Demo:以特定网站站点为目标抓取数据;
流程步骤:
- Task设置:设置抓取URL集、设置抓取关键词过滤、设置抓取时间范围
- Nutch抓取
- Lucene/solr/elasticSearch创建索引,将索引存储在HDFS中
- 根据Task设置KeyWord到索引库中查询数据
- 查询结果入HBase
- Hbase过滤筛选导出Excel

2)环境搭建
2.1 Ubuntu12.04环境安装;
2.2 Linux 下Jdk1.7的安装和配置;
2.3 Tomcat6.0的安装和配置;
2.3.1下载Tomcat6.0的zip压缩包,将压缩包解压到/usr/lib/tomcat6.0目录下 ;
2.3.2 修改tomcat6.0文件夹的权限:sudo chmod -R 777 /usr/lib/tomcat6.0
2.3.3 在tomcat6.0目录下输入bin/startup.sh 若正常启动则可在浏览器上访问http://localhost:8080,表示tomcat安装成功。
2.4 Nutch1.7的安装和配置
2.4.1下载Nutch.17的源文件src包和编译文件bin包,并解压;
2.4.2 将Nutch1.7导入到Eclipse中:看这篇文档;
2.4.3 在myeclipse2014中搭建Nutch的web项目;
2.5 Solr4.7的安装和配置 ;
2.5.1 下载Solr4.7的压缩包,并将压缩包解压;
2.5.2 Solr4.7集成Tomcat6.0;
2.5.3 Solr4.7集成Nutch1.7;
2.5.4 Solr4.7配置中文分词;
2.6 几种中文分词插件的比较和中文分词配置

Lucene:http://lucene.apache.org/
http://p.primeton.com/articles/53cdda7ae138236e56000049

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Java Lucene-Core 是 Apache Lucene 项目的核心依赖库。Lucene 是一个开源的全文检索引擎工具包,提供了强大的全文检索功能,可用于构建各种基于文本的应用程序。 在使用 Lucene 时,需要添加 Lucene-Core 依赖到项目中,以便能够使用 Lucene 提供的各种功能。Lucene-Core 是 Lucene 项目最基本的依赖库,包含了一些必备的类和方法,用于索引和搜索文档。 通过 Lucene-Core,可以使用 Lucene 提供的各种 API 来创建索引、搜索和加权查询。Lucene 使用倒排索引的方式来快速定位包含搜索词的文档,而不需要遍历整个文档集合。这种索引结构使得 Lucene 具有出色的搜索效率和性能。 Lucene-Core 还提供了各种分析器(Analyzer)和查询解析器(Query Parser),用于处理文本的分词、词干处理和查询解析等操作。分析器可用于将文本分割成词语,并根据需要进行一些文本处理操作。查询解析器则用于将用户的查询语句解析成 Lucene 可以理解的查询对象。 除了 Lucene-Core,还存在其他的 Lucene 依赖库,如 Lucene-Analyzers、Lucene-Queries 等,它们提供了更高级的功能和扩展,用于处理多语言分词、模糊查询、范围查询等等。 总之,Java Lucene-Core 依赖是使用 Lucene 的必备库,它提供了构建全文检索应用程序所需的基本功能和工具。通过使用 Lucene-Core,开发人员可以更方便地利用 Lucene 的强大功能来实现高效的全文检索。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值