Lucene全文检索

最新推荐文章于 2024-09-10 10:21:38 发布

weixin_34026276

最新推荐文章于 2024-09-10 10:21:38 发布

阅读量81

点赞数

文章标签： java 数据库爬虫

　　1.1 solr
　　
　　简单介绍一下solr?
　　
　　Solr是一个独立的企业级搜索应用服务器，它对外提供类似于web-service的API接口。用户可以通过http请求，向搜索引擎服务器提交一定格式的XML文件，生成索引；也可以通过http Get操作提出查找请求，并得到XML格式的返回结果。
　　
　　特点：Solr是一个高性能，采用Java5开发，基于Lucene的全文搜索服务器。同时对其进行了扩展，提供了比Lucene更为丰富的查询语言，同时实现了可配置、可扩展并对查询性能进行了优化，并且提供了一个完善的功能管理界面，是一款非常优秀的全文搜索引擎。
　　
　　工作方式：文档通过Http利用XML加到一个搜索集合中。查询该集合也是通过http收到一个XML/JSON响应来实现。它的主要特性包括：高效、灵活的缓存功能，垂直搜索功能，高亮显示搜索结果，通过索引复制来提高可用性，提供一套强大Data Schema 来定义字段，类型和设置文本分析，提供基于Web的管理界面等。
　　
　　2.Solr怎么设置搜索结果排名靠前？
　　
　　可以设置文档中域的boost值，boost值越高，计算出来的相关度得分就越高，排名也就越靠前。此方法可以把热点产品或者推广商品的排名提高。
　　
　　3.solr中lk分词器原理是什么？
　　
　　IK分词器的分词原理是词典分词。先在内存中初始化一个词典，然后在分词过程中挨个读取字符，和字典中的字符相匹配，把文档中的所有词语拆分出来的过程。
　　
　　1.2 搜索介绍
　　
　　 1.2.1 传统搜索实现方案
　　
　　说明：根据用户输入的搜索关键词（java），应用服务器通过SQL语句查询数据库，数据库服务器把查询结果响应给应用服务器，应用服务器把查询结果响应给用户。
　　
　　特点：用户量大，数据量大，数据库服务器的压力很大，查询速度慢！！！
　　
　　 1.2.2 Lucene实现方案
　　
　　说明：根据用户输入的搜索关键词（java），应用服务器通过Lucene的API搜索索引库，索引库把搜索结果响应到应用服务器，应用服务器再把搜索结果响应给用户。
　　
　　特点：解决用户量大，数据量很大，系统对搜索速度要求高的业务需求（实时查询）。
　　
　　1.3 数据查询方法
　　
　　 1.3.1 顺序扫描法
　　
　　举个例子：比如我们有大量的文件，文件编号从A，B，C。。。。。。
　　
　　需求：要找出文件内容中包含有java的所有文件
　　
　　需求实现：从A文件开始查找，再找B文件，然后再找C文件，以此类推。。。。。
　　
　　特点：如果文件数量很多，查找速度慢！！！
　　
　　1.3.2 倒排索引法
　　
　　举个例子：使用新华字典查找汉字，先找到汉字的偏旁部首，再根据偏旁部首对应的目录（索引）找到目标汉字。
　　
　　以lucene为例建立倒排索引：
　　
　　文件一(编号0)：we like java java java
　　
　　文件二（编号1）：we like lucene lucene lucene
　　
　　说明：
　　
　　建立倒排索引，就是建立词语与文件的对应关系（词语在什么文件出现，出现了几次，在什么位置出现）。
　　
　　搜索的时候，直接根据搜索关键词（java），在倒排序中找到目标内容。
　　
　　1.4 搜索技术应用场景
　　
　　单机软件搜索（idea）
　　
　　站内搜索（京东、淘宝）

// The Vue build version to load with the `import` command
// (runtime-only or standalone) has been set in webpack.base.conf with an alias.
import Vue from 'vue'
import router from './router'
//布局模板页
import Layout from "www.yigouyule2.cn
./components/layout/Layout";
//第三方插件
import $ from 'jquery';
import '.www.dasheng178.com./node_modules/bootstrap/dist/css/bootstrap.min.css'
import '../node_modules/font-awesome/css/font-awesome.min.css'
import '../node_modules/ www.xycheng178.com ionicons/dist/css/ionicons.min.css'
import 'www.mcyllpt.com../static/css/index.css';

import 'www.michenggw.com/../node_modules/bootstrap/dist/js/bootstrap.min'

Vue.config.productionTip = false

/* eslint-disable no-new */
new Vue({
el: '#app',
router,
components: { Layout },
template: '<Layout/>'
})
复制代码
index.html 配置body样式

<body class="hold-transition skin-blue sidebar-mini">
　　
　　垂直搜索（限定行业，比如教育，医疗搜索）
　　
　　平台搜索（百度，360，搜狗）
　　
　　2. Lucene介绍
　　
　　2.1 Lucene是什么
　　
　　Lucene是apache软件基金会下的一个子项目。是一个成熟、免费、开放源代码的全文检索引擎工具包。提供了一套简单易用的API，方便在目标系统中实现全文检索功能。目前已经有很多应用系统的搜索功能是基于lucene来实现。比如eclipse帮助系统的搜索功能。
　　
　　Lucene能够为文本类型的数据建立索引，只需要把数据转换成文本格式，lucene就可以对文档进行索引和搜索。比如常见的word文档、html文档、pdf文档。首先将文档内容转换成文本格式，交给lucene进行索引，把建立好的索引保存在硬盘或者内存中。然后根据用户输入的查询条件，在索引文件中查找，返回查询结果给用户。
　　
　　2.2 全文检索是什么
　　
　　索引流程:计算机通过索引程序扫描文件中的每一个词语，建立词语与文件的对应关系。
　　
　　检索流程：计算机通过检索程序，根据搜索关键词，在索引库查找目标内容。
　　
　　2.3 Lucene与搜索引擎的区别
　　
　　 Lucene是一个全文检索引擎工具包，相当于汽车的发动机；搜索引擎基于全文检索实现，是一个可以独立运行的软件产品，相当于汽车。
　　
　　 2.4 Lucene官方网站
　　
　　http://lucene.apache.org/
　　
　　3.全文检索流程介绍
　　
　　 3.1 索引和检索流程图
　　
　　3.2 索引流程详细介绍
　　
　　3.2.1 原始数据
　　
　　保存在关系数据库中的业务数据。
　　
　　保存在文件中的数据。
　　
　　网络上的网页文件数据。
　　
　　3.2.2 采集数据
　　
　　信息采集的开源软件：Solr（http://lucene.apache.org/solr），solr是Apache的一个子项目，支持从关系数据库、xml文档中提取原始数据。
　　
　　Nutch（http://lucene.apache.org/nutch），Nutch是Apache的一个子项目，包括大规模爬虫工具，能够抓取和分辨web网站数据。
　　
　　jsoup（http://jsoup.org/），jsoup是一款Java的HTML解析器，可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API，可以通过DOM，CSS以及类似于JQuery的操作方法来取出和操作数据。
　　
　　通过JDBC操作获取到关系数据库中的业务数据。
　　
　　通过IO流获取文件上的数据。
　　
　　通过爬虫（网络蜘蛛）程序获取网络上的网页数据。
　　
　　 3.2.3 建立文档对象
　　
　　说明：文档对象（Document），一个文档对象包含有多个域（field）。一个文档对象就相当于关系数据库表中的一条记录，一个域就相当于一个字段。
　　
　　结构化数据：长度固定，格式固定。
　　
　　非结构化数据：长度不固定，格式不固定（文档对象就是非结构化数据）
　　
　　 3.2.4 分析文档对象
　　
　　把原始数据，转换成文档对象之后，使用分析器（分词器）把文档域中的数据切分成一格一格词语。为后续建立索引做准备。
　　
　　3.2.5 建立索引
　　
　　建立词语与文档的对应关系，词语在什么文档出现，出现了几次，在什么位置出现（倒排索引）。并且保存到索引库。
　　
　　3.3 检索流程详细介绍
　　
　　3.3.1 用户
　　
　　用户可以是自然人，也可以是程序。
　　
　　3.3.2 用户查询
　　
　　用户在搜索入口界面，输入搜索关键词，执行搜索。
　　
　　3.3.3 建立查询对象
　　
　　说明：根据用户输入的搜索关键词，使用分析器分词以后，建立查询对象（Query），Query对象会生成具体的查询语法。bookName:java,表示搜索图书名称域中包含有java的图书。
　　
　　3.3.4 执行搜索
　　
　　根据查询对象（Query），和Query生成的语法，在索引库中查询索引内容。
　　
　　3.3.5 返回查询结果
　　
　　提供一个搜索结果页面，把搜索结果友好的展示给用户（搜索关键词是高亮显示，搜索结果有排序）。