Lucene 源码分析

最新推荐文章于 2024-05-06 18:26:10 发布

qq_47537678

最新推荐文章于 2024-05-06 18:26:10 发布

阅读量1.1k

点赞数

分类专栏：项目实训文章标签： java

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_47537678/article/details/123660915

版权

项目实训专栏收录该内容

10 篇文章 0 订阅

订阅专栏

Lucene源码项目结构

Lucene项目每个目录包含的类以及用途：
在这里插入图片描述

文章目录

Lucene源码项目结构
Analysis
codecs
- 数据维度
- 行为维度

Analysis

主要用于对query，document的解析，拆解为token

codecs

编码类的包，里面囊括了对各类数据的编码、解码的定义与实现，核心类。
其中有大量的抽象类，也就是只有声明，没有实现。
可根据需求自行设计，基于抽象类来实现一些满足自己需求的类。

简单梳理：

数据维度

lucene将要处理的数据分为以下类

PostingList 倒排表，
即 term->[doc1， doc3, doc5] 这样的倒排索引数据
BlockTree
从 term 到 PostingList 的映射关系，就是TermDict。一般这种映射关系用FST这种数据结构表示，其实是一种树形结构，类似于Tier树，Lucene里称为BlockTree。
StoredField
存储的是原始信息
DocVelue
键值数据，主要用来加速对字段的排序、筛选
TermVector
词向量信息，记录不同term的全局出现频率
Norms
存储Normalisation信息，比如给某些field加权之类
PointValue
用来加速range Query的信息

行为维度

    Writer
    Reader
    Format 本质是用于唤起Writer和Reader的一种媒介

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Lucene 源码分析

Lucene源码项目结构Lucene项目每个目录包含的类以及用途：文章目录Lucene源码项目结构Analysiscodecs二、使用步骤1.引入库2.读入数据总结Analysis主要用于对query，document的解析，拆解为tokencodecs示例：pandas 是基于NumPy 的一种工具，该工具是为了解决数据分析任务而创建的。二、使用步骤1.引入库代码如下（示例）：import numpy as npimport pandas as pdimport matpl
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。