java搜索引擎创建索引,搜索引擎（Lucene-索引详解）

最新推荐文章于 2022-10-06 19:14:12 发布

weixin_39863918

最新推荐文章于 2022-10-06 19:14:12 发布

阅读量182

点赞数

文章标签： java搜索引擎创建索引

IndexWriter详解

问题1：索引创建过程完成什么事？

回顾架构图

Lucene索引创建API 图示

Lucene索引创建代码示例

public static void main(String[] args) throws IOException {

// 创建使用的分词器

Analyzer analyzer = new IKAnalyzer4Lucene7(true);

// 索引配置对象

IndexWriterConfig config = new IndexWriterConfig( analyzer );

// 设置索引库的打开模式：新建、追加、新建或追加

config.setOpenMode(OpenMode.CREATE_OR_APPEND);

// 索引存放目录

// 存放到文件系统中

Directory directory = FSDirectory.open((new File("f:/test/indextest")).toPath());

// 存放到内存中

// Directory directory = new RAMDirectory();

// 创建索引写对象

IndexWriter writer = new IndexWriter(directory, config);

// 创建document

Document doc = new Document();

// 往document中添加商品id字段

doc.add(new StoredField("prodId", "p0001"));

// 往document中添加商品名称字段

String name = "ThinkPad X1 Carbon 20KH0009CD/25CD 超极本轻薄笔记本电脑联想";

doc.add(new TextField("name", name, Store.YES));

}

IndexWriter涉及类图示

IndexWriterConfig 写索引配置：

Ø 使用的分词器。

Ø 如何打开索引(是新建，还是追加)。

Ø 还可配置缓冲区大小、或缓存多少个文档，再刷新到存储中。

Ø 还可配置合并、删除等的策略。

Directory 指定索引数据存放的位置：

Ø 内存

Ø 文件系统

Ø 数据库

保存到文件系统用法：

Directory directory = FSDirectory.open(Path path); // path 指定目

IndexWriter 用来创创建、维护一个索引。它的API 使用流程

// 创建索引写对象

IndexWriter writer = new IndexWriter(directory, config);

// 创建document

// 将文档添加到索引

writer.addDocument(doc);

// 删除文档

//writer.deleteDocuments(terms);

//修改文档

//writer.updateDocument(term, doc);

// 刷新

writer.flush();

// 提交

writer.commit()

注意：IndexWriter是线程安全的。如果你的业务代码中有其他的同步控制，请不要使用IndexWriter作为锁对象，以免死锁。

IndexWriter还提供：add方法、delete方法、updatre方法、其他方法。

问题2：索引库中会存储反向索引数据，会存储document吗？

问题3： document会以什么结构存储？

网页会存储哪些信息？

Document详解

Document 文档

要索引的数据记录、文档在lucene中的表示，是索引、搜索的基本单元。一个Document由多个字段Field构成。就像数据库的记录-字段。IndexWriter按加入的顺序为Document指定一个递增的id(从0开始)，称为文档id。反向索引中存储的是这个id，文档存储中正向索引也是这个id。业务数据的主键id只是文档的一个字段。请查看Document的源码，找出操作字段的API

Document API

Field

字段：由字段名name、字段值value(fieldsData)、字段类型 type 三部分构成。字段值可以是文本(String、Reader 或预分析的 TokenStream)、二

进制值(byte[])或数值。请查看Field的源码，找出这三个属性查看它提供了哪些构造方法供我们使用。

IndexableField Field API

Document—Field 数据举例

Ø 新闻：新闻id，新闻标题、新闻内容、作者、所属分类、发表时间

Ø 网页搜索的网页：标题、内容、链接地址

Ø 商品： id、名称、图片链接、类别、价格、库存、商家、品牌、月销量、详情…

问题1：我们收集数据创建document对象来为其创建索引，数据的所有属性是否都需要加入到document中？如数据库表中的数据记录的所有字段是否都

需要放到document中？哪些字段应加入到document中？

问题2：是不是所有加入的字段都需要进行索引？是不是所有加入的字段都要保存到索引库中？什么样的字段该被索引？什么样的字段该被存储？

请就网页、商品进行思考？

网页：标题、内容、链接地址

商品： id、名称、图片链接、类别、价格、库存、商家、品牌、月销量、详情…

问题3：各种要被索引的字段该以什么样的方式进行索引，全都是分词进行索引，还是有不同区别？

网页：标题、内容、链接地址

商品： id、名称、图片链接、类别、价格、库存、商家、品牌、月销量、详情…

从问题2、3得出：不同的字段会有不同的索引设置信息。这些信息通过字段的类型属性type:IndexableFieldType对象来定义

IndexableFieldType

字段类型：描述该如何索引存储该字

字段可选择性地保存在索引中，这样在搜索结果中，这些保存的字段值就可获得。一个Document应该包含一个或多个存储字段来唯一标识一个文档。为什么？注意：未存储的字段，从索引中取得的document中是没有这些字段的。

请查看IndexableFieldType 的源码，找到存储、分词、索引信息的定义

请查看IndexableFieldType的实现类有哪些？

Document 类关系

weixin_39863918

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。