初识Lucene（Lucene可以做什么？）

最新推荐文章于 2021-02-18 11:09:00 发布

jiang617325814

最新推荐文章于 2021-02-18 11:09:00 发布

阅读量139

点赞数

分类专栏： Lucene 文章标签： lucene 初识

Lucene 专栏收录该内容

10 篇文章 0 订阅

订阅专栏

1.获取内容（Acquire Content）
Lucene不提供爬虫功能，如果需要获取内容需要自己建立爬虫应用。
Lucene只做索引和搜索工作。
2.建立文档（Build Document）
文档通常由一个个域（fields）组成，例如：标题，正文，摘要等。
需要保证文档的格式一致（如都为txt格式）
在此过程中可以通过语义分析来使要保存的文档更加精炼，也可以通过加权值来决定域和文档是否重要。
可以再建立索引的时候加权值，也可以在搜索的时候加权值。
3.分析文档（Analyze Document）
解决如果控制符合单词，解决拼写错误，是否关联同义词，是否折叠单数复数形式。
是否保留结果的偏差，当非拉丁语表示的语言，如何辨别词。
4.建立文档索引（Index Document）
5.搜索
支持单个或者符合查询，短语查询，通配符，模糊查询，结果排序
支持对错误拼写矫正等
6建立查询（Build Query）
7.检索查询（Search Query）
8返回结果（Rednder Results）

用户界面

管理员界面
管理员要设置起始URL，建立爬虫访问的范围和加载什么类型的文件，设置访问文件时间等
开关服务，检测全部系统是否正常，建立或者从备份中恢复数据。
分析界面

Solr作为Apache的子项目，添加了一些服务。比如提供管理员接口，扩展，从数据库中获取索引内容，
添加重要的用户端功能，如：分面导航。