1.Lucene是什么?
Lucene是一套用于全文检索和搜索的开放源代码程序库。实际上lucene的功能很单一,说到底,就是你给它若干个字符串,然后它为你提供一个全文搜索服务,告诉你你要搜索的关键词出现在哪里。
2.全文检索是什么?
全文检索首先将要查询的目标文档中的词提取出来,组成索引,通过查询索引达到搜索目标文档的目的。这种先建立索引,再对索引进行搜索的过程就叫全文检索。
全文检索大体分两个过程,索引创建(Indexing)和搜索索引(Search)。索引创建:将现实世界中所有的结构化和非结构化数据提取信息,创建索引的过程。搜索索引:通过用户的查询请求搜索创建的索引,然后返回查询结果的过程。
说到结构化和非结构化数据,而我们生活中的数据分为结构化数据和非结构化数据:
-
结构化数据:具有固定格式或有限长度的数据,可以用二维表结构来逻辑表达实现的,如数据库,元数据等。
-
非结构化数据:指不定长或无固定格式的数据,如办公文档、文本、图片、XML、HTML、各类报表、图像和音频/视频信息等等。也叫全文数据。
对于结构化数据的搜索:如对数据库的搜索,用 SQL 语句。再如对元数据的搜索,如利用windows 搜索对文件名,类型,修改时间进行搜索等。对