
【Lucene系列】
文章平均质量分 93
从零开始学Lucene
緑水長流*z
一个专注于编写自学教程的博主;热衷于分享当下热门的技术~
展开
-
Lucene的底层数据结构与评分算法的分析(7)
Elasticsearch使用的是 term frequency/inverse document frequency算法,简称为TF/IDF算法。TF词频(Term Frequency),IDF逆向文档频率(Inverse Document Frequency)原创 2024-11-07 10:00:00 · 1700 阅读 · 0 评论 -
Lucene的Directory的详细使用与性能测试(6)
Lucene使用Directory来关联一个目录用于存储索引文件,Directory为存储文件列表提供了一个抽象层;其子类非常丰富,不同的子类底层采用的IO模型不同,达到的性能也不一样。Directory将决定Luceen底层采用什么方式将数据写入到磁盘,是影响Lucene性能的一大关键;FSDirectory:用于在文件系统中存储索引文件的Directory实现的基类。RAMDirectory:基于内存的目录实现,但不适用于大型索引。原创 2024-11-06 10:00:00 · 1452 阅读 · 0 评论 -
Lucene分析器的详细使用(5)
分析器,是将用户输入的一段文本,分析成符合逻辑的一种工具。分析器中包含**字符过滤器(Char Filters)**、**分词器(Tokenizer)**和**Token过滤器(Token Filters)**两个组件;**其中分词器是分析器中最为核心的组件。**+ 字符过滤器(Char Filters):字符过滤器是针对文本在分词器前的一些字符转换,如解析html代码、正则表达式等+ 分词器(Tokenizer):将用户输入的文本根据指定条件进行词语拆分,如I am原创 2024-11-05 10:00:00 · 1059 阅读 · 0 评论 -
Lucene索引的高级检索(4)
我们打开任意的搜索引擎都具备高亮查询功能,搜索引擎会将符合搜索条件的关键字进行高亮展示,凸显查询的重点信息;Lucene也支持对搜索结果集的高亮返回;高亮的本质是将搜索到的关键字进行前后缀包裹,最终返回到前端页面渲染后就成了高亮的效果了;原创 2024-11-04 10:00:00 · 1986 阅读 · 0 评论 -
Lucene索引库的维护增删改(3)
lucene的修改API,首先把符合条件的文档都删除,然后添加一篇新的文档。在Lucene中如果有文档则修改,如果没有此文档那么修改就相当于添加。原创 2024-11-03 00:00:00 · 4373 阅读 · 0 评论 -
Lucene的使用方法与Luke工具(2)
读取原始数据(从数据库读取)创建文档对象(Document)、域对象(Field)。并把域对象添加到文档对象中创建分析器(Analyzer),用于分词创建索引库配置对象(IndexWriterConfig),配置索引库(传入分析器)设置索引库打开方式(OpenModel)创建索引库目录对象(Directory),指定索引库的目录创建索引库操作对象(IndexWriter),用原创 2024-11-02 00:00:00 · 9297 阅读 · 0 评论 -
Lucene的概述与应用场景(1)
Lucene是apache软件基金会 jakarta项目组的一个子项目,是一套用于全文检索和搜寻的开源程式库,由Apache软件基金会支持和提供。其作者是大名鼎鼎的大数据之父Doug-Cutting。Lucene通过使用倒排索引技术,能够快速地从大量的文档中检索出相关信息。对文本数据进行高效的索引和搜索,支持复杂的查询语法,包括布尔运算、短语搜索、模糊搜索等。在Java开发环境里Lucene是一个成熟的免费开源工具。就其本身而言,Lucene是当前以及最近几年最受欢迎的免费Java信息检索[程序库。原创 2024-11-01 17:49:08 · 1372 阅读 · 0 评论