深入理解ElasticSearch(底层索引控制)读书笔记

 

3.1 改变Lucene的评分方式
    可用的相似度模型:
       BM25 用于估算文档与给定查询匹配的概率,通常BM25模型在短文本文档上的效果更好,因为这种场景    
       中重复词项对文档的总体得分损害较大;
        随机偏离模型DFR: 在类似自然语言的文本上拥有较好的效果;
        基于信息的模型:IB模型也在类似的自然语言的文本上拥有较好的效果;
    为每字段配置相似度模型:例如下图

 

 

3.2 相似度模型配置
    选择默认的相似度(如下图)

 

 

配置被选用的相似度模型
 TF/IDF相似度模型

 

配置BM25相似度模型

 

配置DFR相似度模型

 

 

 

 

3.3 使用编码器
	工作原理解释:编解码器再mapping文件中,需要逐个字段配置,
            为了配置某个字段使用特定的编解码器,需要在字段文件上添加
             一个postings_format属性,并赋予对应属性值

配置编解码器

 

 


3.4 准实时/提交、更新及事务日志
        一个理想的搜索解决方案,新索引的数据应该能立即搜索到。在多服务器环境下,事实并非如此
        案例引导更新文档,并立即尝试搜索它
	索引更新及索引提交

 

更改默认的刷新时间 Searcher自动刷新的时间间隔可以通过以下手段改变;更改refresh_interval

 

事务日志
LUCENE能保证索引的一致性,但这并不能保证当往索引中的写数据失败时,不会损失数据,
频繁的提交会导致严重的性能问题(因为每次提交一次都会触发一个索引段的创建操作
同时也能触发索引段的合并)ES通过使用这种方式来解决这些问题,它能保存所有的未提交的事务
而ES会不时创建一个新的日志文件用于记录每个事务的后续操作。当有错误发生时,必要时会
再执行某些操作,以确保没有任何信息的丢失。而且事务日志的相关操作都是自动完成的,用户
不会意识到某个特定时刻触发的更新提交。事务日志中的信息与存储介质之间的同步称为事务日志
的刷新

 

准实时读取

 

3.5 深入理解数据处理

	输入并不总是进行文本分析 简单举例进行确定有些文本不分析;
	范例的使用举例(进行文本分析);  
	索引期更换分词器;

搜索时更换分词器

 

陷阱与默认分析器

 

3.6 控制索引合并

3.6.1 选择正确的合并策略(只简单介绍)

 

调度

 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

icool_ali

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值