IndexWriter详解
问题1:索引创建过程完成什么事?
回顾架构图
Lucene索引创建API 图示
Lucene索引创建代码示例
public static void main(String[] args) throws IOException {
// 创建使用的分词器
Analyzer analyzer = new IKAnalyzer4Lucene7(true);
// 索引配置对象
IndexWriterConfig config = new IndexWriterConfig( analyzer );
// 设置索引库的打开模式:新建、追加、新建或追加
config.setOpenMode(OpenMode.CREATE_OR_APPEND);
// 索引存放目录
// 存放到文件系统中
Directory directory = FSDirectory.open((new File("f:/test/indextest")).toPath());
// 存放到内存中
// Directory directory = new RAMDirectory();
// 创建索引写对象
IndexWriter writer = new IndexWriter(directory, config);
// 创建document
Document doc = new Document();
// 往document中添加 商品id字段
doc.add(new StoredField("prodId", "p0001"));
// 往document中添加 商品名称字段
String name = "ThinkPad X1 Carbon 20KH0009CD/25CD 超极本轻薄笔记本电脑联想";
doc.add(new TextField("name", name, Store.YES));
}
IndexWriter涉及类图示
IndexWriterConfig 写索引配置:
Ø 使用的分词器。
Ø 如何打开索引(是新建,还是追加)。
Ø 还可配置缓冲区大小、或缓存多少个文档,再刷新到存储中。
Ø 还可配置合并、删除等的策略。
Directory 指定索引数据存放的位置:
Ø 内存
Ø 文件系统
Ø 数据库
保 存 到 文 件 系 统 用 法 :
Directory directory = FSDirectory.open(Path path); // path 指 定 目
IndexWriter 用来创 创 建 、 维 护 一 个 索 引 。 它 的API 使 用 流 程
// 创建索引写对象
IndexWriter writer = new IndexWriter(directory, config);
// 创建document
// 将文档添加到索引
writer.addDocument(doc);
// 删除文档
//writer.deleteDocuments(terms);
//修改文档
//writer.updateDocument(term, doc);
// 刷新
writer.flush();
// 提交
writer.commit()
注意:IndexWriter是线程安全的。如果你的业务代码中有其他的同步控制,请不要使用IndexWriter作为锁对象,以免死锁。
IndexWriter还提供:add方法、delete方法、updatre方法、其他方法。
问题2: 索引库中会存储反向索引数据,会存储document吗?
问题3: document会以什么结构存储?
网页会存储哪些信息?
Document详解
Document 文档
要索引的数据记录、文档在lucene中的表示,是索引、搜索的基本单元。一个Document由多个字段Field构成。就像数据库的记录-字段。IndexWriter按加入的顺序为Document指定一个递增的id(从0开始),称为文档id。反向索引中存储的是这个id,文档存储中正向索引也是这个id。业务数据的主键id只是文档的一个字段。请查看Document的源码,找出操作字段的API
Document API
Field
字段:由字段名name、字段值value(fieldsData)、字段类型 type 三部分构成。字段值可以是文本(String、Reader 或 预分析的 TokenStream)、二
进制值(byte[])或数值。请查看Field的源码,找出这三个属性查看它提供了哪些构造方法供我们使用。
IndexableField Field API
Document—Field 数据举例
Ø 新 闻:新闻id,新闻标题、新闻内容、作者、所属分类、发表时间
Ø 网 页 搜 索 的 网 页:标题、内容、链接地址
Ø 商 品: id、名称、图片链接、类别、价格、库存、商家、品牌、月销量、详情…
问题1:我们收集数据创建document对象来为其创建索引,数据的所有属性是否都需要加入到document中?如数据库表中的数据记录的所有字段是否都
需要放到document中?哪些字段应加入到document中?
问题2:是不是所有加入的字段都需要进行索引?是不是所有加入的字段都要保存到索引库中?什么样的字段该被索引?什么样的字段该被存储?
请就网页、商品进行思考?
网页:标题、内容、链接地址
商品: id、名称、图片链接、类别、价格、库存、商家、品牌、月销量、详情…
问题3:各种要被索引的字段该以什么样的方式进行索引,全都是分词进行索引,还是有不同区别?
网页:标题、内容、链接地址
商品: id、名称、图片链接、类别、价格、库存、商家、品牌、月销量、详情…
从问题2、3得出:不同的字段会有不同的索引设置信息。这些信息通过字段的类型属性type:IndexableFieldType对象来定义
IndexableFieldType
字段类型:描述该如何索引存储该字
字段可选择性地保存在索引中,这样在搜索结果中,这些保存的字段值就可获得。一个Document应该包含一个或多个存储字段来唯一标识一个文档。为什么?注意:未存储的字段,从索引中取得的document中是没有这些字段的。
请查看IndexableFieldType 的源码,找到存储、分词、索引信息的定义
请查看IndexableFieldType的实现类有哪些?
Document 类关系