Lucene-Java全文搜索引擎

最新推荐文章于 2021-02-16 06:05:25 发布

Chasoncsdn

最新推荐文章于 2021-02-16 06:05:25 发布

阅读量586

点赞数

分类专栏： project-management 文章标签：搜索引擎 lucene apache

本文链接：https://blog.csdn.net/u013188470/article/details/48132149

版权

project-management 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

Lucene 目前是 Apache Jakarta 家族中的一个开源项目。也是目前最为流行的基于 Java 开源全文检索工具包。Apache Lucene是一个基于Java全文搜索引擎，利用它可以轻易地为Java软件加入全文搜寻功能。
Lucene 是目前最为流行的开放源代码全文搜索引擎工具包，隶属于Apache基金会，由资深全文索引/检索专家Doug Cutting所发起，并以其妻子的中间名作为项目的名称。Lucene不是一个具有完整特征的搜索应用程序，而是一个专注于文本索引和搜索的工具包，能够为应用程序添加索引与搜索能力。基于Lucene在索引及搜索方面的优秀表现，虽然由Java编写的Lucene具有天生的跨平台性，但仍被改编为许多其他语言的版本：Perl、Python、C++、.Net等。

同其他开源项目一样，Lucene具有非常好的架构，能够方便地在其基础上进行研究与开发，添加新功能或者开发新系统。Lucene本身只支持文本文件及少量语种的索引，并且不具备爬虫功能，而这正是Lucene的魅力所在，通过Lucene提供的丰富接口，我们可以根据自身的需要在其上添加具体语言的分词器，针对具体文档的文本解析器等，而这些具体的功能实现都可以借助于一些已有的相关开源软件项目、甚至是商业软件来完成，这也保证了Lucene在索引及搜索方面的专注性。目前，通过在Lucene的基础上加入爬行器、文本解析器等也形成了一些新的开源项目，如LIUS、Nutch等。并且Lucene的索引数据结构已经成了一种事实上的标准，为许多搜索引擎所采用。

一、环境搭建
环境：Ubuntu12.04+Nutch1.7+Solr4.7+Tomcat6.0+Hbase
1）：搭建搜索引擎Demo以及应用Hbase的数据储存特点完成从指定网站站点抓取数据并根据设置KeyWorld进行检索过滤，将过滤结果存储在Hbase中，并通过Hbase进行二次筛选过滤，将结果输出到CSV中。
目标：
- Demo:以特定网站站点为目标抓取数据；
流程步骤：
- Task设置：设置抓取URL集、设置抓取关键词过滤、设置抓取时间范围
- Nutch抓取
- Lucene/solr/elasticSearch创建索引，将索引存储在HDFS中
- 根据Task设置KeyWord到索引库中查询数据
- 查询结果入HBase
- Hbase过滤筛选导出Excel

2）环境搭建
2.1 Ubuntu12.04环境安装；
2.2 Linux 下Jdk1.7的安装和配置；
2.3 Tomcat6.0的安装和配置；
2.3.1下载Tomcat6.0的zip压缩包，将压缩包解压到/usr/lib/tomcat6.0目录下；
2.3.2 修改tomcat6.0文件夹的权限：sudo chmod -R 777 /usr/lib/tomcat6.0
2.3.3 在tomcat6.0目录下输入bin/startup.sh 若正常启动则可在浏览器上访问http://localhost:8080,表示tomcat安装成功。
2.4 Nutch1.7的安装和配置
2.4.1下载Nutch.17的源文件src包和编译文件bin包，并解压；
2.4.2 将Nutch1.7导入到Eclipse中:看这篇文档；
2.4.3 在myeclipse2014中搭建Nutch的web项目；
2.5 Solr4.7的安装和配置；
2.5.1 下载Solr4.7的压缩包，并将压缩包解压；
2.5.2 Solr4.7集成Tomcat6.0；
2.5.3 Solr4.7集成Nutch1.7；
2.5.4 Solr4.7配置中文分词；
2.6 几种中文分词插件的比较和中文分词配置

Lucene：http://lucene.apache.org/
http://p.primeton.com/articles/53cdda7ae138236e56000049

Chasoncsdn

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Lucene-Java全文搜索引擎

Lucene 目前是 Apache Jakarta 家族中的一个开源项目。也是目前最为流行的基于 Java 开源全文检索工具包。Apache Lucene是一个基于Java全文搜索引擎，利用它可以轻易地为Java软件加入全文搜寻功能。 Lucene 是目前最为流行的开放源代码全文搜索引擎工具包，隶属于Apache基金会，由资深全文索引/检索专家Doug Cutting所发起，并以其妻子的中间名作为
复制链接

扫一扫