3.1 改变Lucene的评分方式
可用的相似度模型:
BM25 用于估算文档与给定查询匹配的概率,通常BM25模型在短文本文档上的效果更好,因为这种场景
中重复词项对文档的总体得分损害较大;
随机偏离模型DFR: 在类似自然语言的文本上拥有较好的效果;
基于信息的模型:IB模型也在类似的自然语言的文本上拥有较好的效果;
为每字段配置相似度模型:例如下图
3.2 相似度模型配置
选择默认的相似度(如下图)
配置被选用的相似度模型
TF/IDF相似度模型
配置BM25相似度模型
配置DFR相似度模型
3.3 使用编码器
工作原理解释:编解码器再mapping文件中,需要逐个字段配置,
为了配置某个字段使用特定的编解码器,需要在字段文件上添加
一个postings_format属性,并赋予对应属性值
配置编解码器
3.4 准实时/提交、更新及事务日志
一个理想的搜索解决方案,新索引的数据应该能立即搜索到。在多服务器环境下,事实并非如此
案例引导更新文档,并立即尝试搜索它
索引更新及索引提交
更改默认的刷新时间 Searcher自动刷新的时间间隔可以通过以下手段改变;更改refresh_interval
事务日志
LUCENE能保证索引的一致性,但这并不能保证当往索引中的写数据失败时,不会损失数据,
频繁的提交会导致严重的性能问题(因为每次提交一次都会触发一个索引段的创建操作
同时也能触发索引段的合并)ES通过使用这种方式来解决这些问题,它能保存所有的未提交的事务
而ES会不时创建一个新的日志文件用于记录每个事务的后续操作。当有错误发生时,必要时会
再执行某些操作,以确保没有任何信息的丢失。而且事务日志的相关操作都是自动完成的,用户
不会意识到某个特定时刻触发的更新提交。事务日志中的信息与存储介质之间的同步称为事务日志
的刷新
准实时读取
3.5 深入理解数据处理
输入并不总是进行文本分析 简单举例进行确定有些文本不分析;
范例的使用举例(进行文本分析);
索引期更换分词器;
搜索时更换分词器
陷阱与默认分析器
3.6 控制索引合并
3.6.1 选择正确的合并策略(只简单介绍)
调度