笔记-Elasticsearch搜索引擎构建入门与实战

最新推荐文章于 2024-06-12 19:50:34 发布

peipei巴比

最新推荐文章于 2024-06-12 19:50:34 发布

阅读量2k

点赞数

分类专栏：大数据文章标签： elasticsearch 搜索引擎搜索引擎构建入门与实战 match suggest

本文链接：https://blog.csdn.net/lansefeiyang_lonson/article/details/126709522

版权

大数据专栏收录该内容

1 篇文章 0 订阅

订阅专栏

协调节点根据数据获取分片ID的计算公式如下：shard=hash（routing）%number_of_primary_shards
第三方数据同步模块（如Canal）负责将数据库中的数据按照业务需求同步到ES中
在ES中进行纠错匹配时使用fuzzy-match搜索
match搜索对某个字段进行模糊匹配

别名表示别名和索引之间的包含关系一个别名可以对应多个索引或者正则匹配的一系列索引
默认情况下，当一个别名只指向一个索引时，写入数据的请求可以指向这个别名，如果这个别名指向多个索引（就像上面的例子），则写入数据的请求是不可以指向这个别名的，别名设置时，将目标索引的is_write_index属性值设置为true来指定该索引可用于执行数据写入操作

keyword类型是不进行切分的字符串类型。这里的“不进行切分”指的是：在索引时，对keyword类型的数据不进行切分，直接构建倒排索引；在搜索时，对该类型的查询字符串不进行切分后的部分匹配。keyword类型数据一般用于对文档的过滤、排序和聚合
在现实场景中，keyword经常用于描述姓名、产品类型、用户ID、URL和状态码等。keyword类型数据一般用于比较字符串是否相等，不对数据进行部分匹配，因此一般查询这种类型的数据时使用term查询。
对keyword类型使用match搜索进行匹配是不会命中文档的。

text类型是可进行切分的字符串类型。这里的“可切分”指的是：在索引时，可按照相应的切词算法对文本内容进行切分，然后构建倒排索引；在搜索时，对该类型的查询字符串按照用户的切词算法进行切分，然后对切分后的部分匹配打分。

term搜索用于搜索值和文档对应的字段是否完全相等，而对于text类型的数据，在建立索引时ES已经进行了切分并建立了倒排索引，因此使用term没有搜索到数据。一般情况下，搜索text类型的数据时应使用match搜索。
ES支持的数值类型有long、integer、short、byte、double、float、half_float、scaled_float和unsigned_long等，数值类型的数据也可用于对文档进行过滤、排序和聚合
布尔类型使用boolean定义，可以用term过滤

在ES中，日期类型的名称为date。ES中存储的日期是标准的UTC格式可以用范围查询或者term查询
1.数组类型数组元素类型是keyword，该类型可以适用于term搜索
2.对象类型搜索需要看对象类型里面的字段类型

geo_point类型

批量写入文档 POST /_bulk insert /BulkRequest InsertRequest
更新单条文档 POST / ${index_name}/_update/$ {_id} UpdateRequest.update
更新或插入单条文档 POST / ${index_name}/_update/$ {_id} upsert UpdateRequest -upsert
批量更新文档 POST /_bulk update /BulkRequest UpdateRequest
条件更新 POST / ${index_name}/_update_by_query updateByQueryRequest query() sript 删除单条文档 DELETE /$ {index_name}/_doc/ ${_id} DeleteRequest 批量删除文档 POST /_bulk delete /BulkRequest DeleteRequest 根据条件删除文档 POST /$ {index_name}/_delete_by_query DeleteByQueryRequest TermQueryBuilder
searchSourceBuilder.fetchSource()方法可以设定搜索返回的字段
结果计数 GET /hotel/_count SearchSourceBuilder CountRequest TermQueryBuilder
分页是必不可少的功能。在默认情况下，ES返回前10个搜索匹配的文档默认情况下，用户最多可以取得10 000个文档
返回多于10 000条的数据，可以适当修改max_result_window的值

作为一个分布式搜索引擎，一个ES索引的数据分布在多个分片中，而这些分片又分配在不同的节点上。一个带有分页的搜索请求往往会跨越多个分片，每个分片必须在内存中构建一个长度为from+size的、按照得分排序的有序队列，用以存储命中的文档。然后这些分片对应的队列数据都会传递给协调节点，协调节点将各个队列的数据进行汇总，需要提供一个长度为number_of_shards*（from+size）的队列用以进行全局排序，然后再按照用户的请求从from位置开始查找，找到size个文档后进行返回。

作为搜索引擎，ES更适合的场景是对数据进行搜索，而不是进行大规模的数据遍历。
SearchSourceBuilder的from()和size()方法来设定from和size参数
ES提供了profile功能，该功能详细地列出了搜索时每一个步骤的耗时，可以帮助用户对DSL的性能进行剖析。开启profile功能只需要在一个正常的搜索请求的DSL中添加"profile":"true"即可

ES提供了explain功能来帮助使用者查看搜索时的匹配详情 GET / ${index_name}/_explain/$ {doc_id} { “query”: { //搜索的具体逻辑 … } }

ES提供了很多搜索匹配功能：既有进行完全匹配的term搜索，也有按照范围匹配的range搜索；既有进行分词匹配的match搜索，也有按照前缀匹配的suggest搜索
query match_all查询所有文档 SearchRequest SearchSourceBuilder MatchAllQueryBuilder

term查询是结构化精准查询的主要查询方式，用于查询待查字段和查询值是否完全匹配 QueryBuilders.termQuery()方法新建一个term查询
terms查询是term查询的扩展形式，用于查询一个或多个值与待查字段是否完全匹配 QueryBuilders.termsQuery() 可变长度参数
range查询用于范围查询，一般是对数值型和日期型数据的查询 QueryBuilders.rangeQuery() gt：大于；·lt：小于；·gte：大于或等于；·lte：小于或等于。

exists 查询 GET /hotel_1/_search { “query”: { “exists”: { //查询tag字段不为空的文档 “field”: “tag” } } } 字段不为空的条件有：·值存在且不是null；·值不是空数组；·值是数组，但不是[null]。
SearchSourceBuilder.existsQuery
布尔查询是常用的复合查询支持的子查询有四种 must 必须 should 可以 must_not 必须不 filter(不计分)
should查询时，表示当前查询为“或”查询 should查询包含一个数组，可以把其他的term级别的查询及布尔查询放入其中。 QueryBuilders.boolQuery().should()
查询中包含must not查询时，表示当前查询为“非”查询 must not查询包含一个数组，可以把其他term级别的查询及布尔查询放入其中
QueryBuilders.boolQuery().mustNot()

filter查询即过滤查询，该查询是布尔查询里非常独特的一种查询.
其他布尔查询关注的是查询条件和文档的匹配程度，并按照匹配程度进行打分；而filter查询关注的是查询条件和文档是否匹配，不进行相关的打分计算，但是会对部分匹配结果进行缓存
QueryBuilders.boolQuery().filter()
当一个请求中有多个filter查询条件时，ES会构建多个bitset数组 ES对于bitset是可重用的，这种重用的机制叫作filter cache（过滤器缓存）最近256个查询
Constant Score查询
如果不想让检索词频率TF（Term Frequency）对搜索结果排序有影响，只想过滤某个文本字段是否包含某个词，可以使用Constant Score将查询语句包装起来
GET /hotel/_search query constant_score ConstantScoreQueryBuilder
干预“相关度”，此时就可以使用Function Score查询

QueryBuilders.functionScoreQuery()
全文搜索全文指的是文本类型数据（text类型）
match查询match查询是全文搜索的主要代表。对于最基本的math搜索来说，只要分词中的一个或者多个在文档中存在即可。
match搜索可以设置operator参数，该参数决定文档按照分词后的词集合进行“与”还是“或”匹配。在默认情况下，该参数的值为“与”关系，即operator的值为or，这也解释了搜索结果中包含部分匹配的文档。如果希望各个词之间的匹配结果是“与”关系，则可以设置operator参数的值为and
minimum_should_match参数，该参数叫作最小匹配参数，其值为一个数值，意义为可以匹配上的词的个数。在一般情况下将其设置为一个百分数
QueryBuilders.matchQuery()方法构建match请求
在多个字段中查询关键词使用multi_match QueryBuilders.multiMatchQuery
match_phrase用于匹配短语，与match查询不同的是，match_phrase用于搜索确切的短语或邻近的词语。
match_phrase查询的slop参数，它用来调节匹配词之间的距离阈值。QueryBuilders.matchPhraseQuery()

对应于geo_point字段类型的查询方式有3种，分别为geo_distance查询、geo_bounding_box查询和geo_polygon
QueryBuilders.geoDistanceQuery geo_shape查询提供的是矩形内的搜索
geo_polygon比geo_shape提供的地理范围功能更加灵活，它支持多边形内的文档搜索
QueryBuilders.geoPolygonQuery GeoPoint

搜索建议自动补全 (前缀查询)ES中的Completion Suggester是比较合适的,为了使用Completion Suggester，其对应的字段类型需要定义为completion类型
搜索建议的结果不是封装在hits中，而是单独封装在suggest中。在suggest.hotel_zh_sug.options中可以看到每一个候选集的文档信息
使用SuggestBuilder方法构建搜索建议请求。使用suggestBuilder.addSuggestion()方法添加具体的搜索建议 CompletionSuggestionBuilder
ES提供的Completion Suggester功能使用的索引结构不是倒排索引，而是在内存中构建FST（Finite StateTransducers）

使用sort子句一般是按照字段信息进行排序，不受相关性影响也可以使用sort对搜索结果按照多个字段进行排序写在前面的是首要排序
默认情况下ES查询时使用sort对结果排序是不计算分数的
SortBuilders.geo DistanceSort()

ES在文本索引的建立和搜索过程中依赖两大组件，即Lucene和分析器。其中，Lucene负责进行倒排索引的物理构建，分析器负责在建立倒排索引前和搜索前对文本进行分词和语法处理，处理的过程包括字符过滤、分词和分词过滤，最终的处理结果是文档内容被表示为一系列关键词信息的集合

match查询过程一般分为如下几步：（1）ES将查询的字符串传入对应的分析器中，分析器的主要作用是对查询文本进行分词，并把分词后的每个词语变换为对应的底层lucene term查询。（2）ES用term查询在倒排索引中查找每个term，然后获取一组包含该term的文档集合。（3）ES根据文本相关度对每个文档进行打分计算，打分完毕后，ES把文档按照相关性进行倒序排序。（4）ES根据得分高低返回匹配的文档。

分析器一般用在下面两个场景中：·创建或更新文档时（合称索引时），对相应的文本字段进行分词处理；·查询文本字段时，对查询语句进行分词。ES中的分析器有很多种，但是所有分析器的结构都遵循三段式原则，即字符过滤器、分词器和词语过滤器。其中，字符过滤器可以有0个或多个，分词器必须只有一个，词语过滤器可以有0个或多个。
ES 内置映射关系字符过滤器 HTML 正则表达式过滤器
分词器内置：标准 standard、字母小写Lower Case 空格、停用词同义词
默认情况下，一个索引的字段类型为text时，该字段在索引建立时和查询时的分析器是standard。standard分析器是由standard分词器、Lower Case分词过滤器和Stop Token分词过滤器构成的
ES还提供了simple分析器、language分析器、whitespace分析器及pattern分析器等
搜索分析器和索引时的分析器默认是一致的，但是在大多数情况下是没有必要指定的
IK分析器是一个开源的、基于Java语言开发的轻量级的中文分词工具包，它提供了多种语言的调用库
IK分析器提供了两个子分析器，即ik_smart和ik_max_word
ik_max_word和ik_smart分析器的主要区别在于切分词语的粒度上，ik_smart的切分粒度比较粗，而ik_max_word将文本进行了最细粒度的拆分，甚至穷尽了各种可能的组合
IK分析器添加词典下的config子目录中创建文件my.dict，在其中添加“嘉怡”即可。如果有更多的词语需要添加，则每个词语单独一行
添加完成后修改IK分析器的配置文件，路径为config/IKAnalyzer.cfg.xml，将新建的字典文件加入ext_dict选项中，
配置完成后重启ES
HanLP分析器提供了众多的子分析器，如hanlp、hanlp_standard、hanlp_crf和hanlp_n_short等
hanlp_standard 和IK的smart类似
HanLP分析器会在后台每隔一段时间（大约1min）对分词词典进行自动热更新。每轮更新完成之后，新添加的词语即可被用户使用。
用户还可以通过ES中的分析器来使用同义词，使用方式分为两种，一种是在建立索引时指定同义词并构建同义词的倒排索引，另一种是在搜索时指定字段的search_analyzer查询分析器使用同义词。
建立索引时使用同义词 synonyms，它是一种支持用户自定义同义词的分词过滤器
查询时使用同义词 synonym_graph 有更新同义词的需求，则只能使用查询时使用同义词的这种方式。首先需要先关闭当前索引,更改索引的settings信息，新添加一组近义词
ES支持用户将同义词放在文件中，文件的位置必须是在 ${ES_HOME}/config目录及其子目录下如果同义词比较多，在settings中进行配置时将非常烦琐。ES支持用户将同义词放在文件中，文件的位置必须是在$ {ES_HOME}/config目录及其子目录下，注意该文件必须存在于ES集群中的每一个节点上。在${ES_HOME}/config目录下建立一个子目录mydict
创建酒店索引时，在settings中指定同义词文件及其路径更新同义词时 POST /hotel/_reload_search_analyzers 才能使用新词
停用词也叫停止词，是指文本在被分词之后的词语中包含的无搜索意义的词在构建搜索引擎索引时，常常忽略这样的词，这样可以大大提升搜索效率。经常使用的中文和英文停用词可以在网站www.ranks.nl上提取，中文停用词地址为https://www.ranks.nl/stopwords/chinese-stopwords，英文停用词地址为https://www.ranks.nl/stopwords
可以通过创建自定义分析器的方式使用停用词
默认情况下，IK分析器的分词器只有英文停用词，没有中文停用词，配置完成后重启ES
默认情况下，HanLP分析器的停用词是不启用的重启ES
拼音分析器提供的分析器为pinyin，另外还提供了与其同名的分词器和分词过滤器
使用Java客户端进行高亮显示搜索时，需要创建一个HighlightBuilder类的实例，然后通过preTags()和postTags()方法分别设置高亮显示的前缀和后缀，并通过方法field()设置高亮显示的字段。遍历结果时，通过SearchHit.getHighlightFields()方法可以获取所有高亮显示的字段及其对应的高亮显示结果的映射，结构为Map<String,HighlightField>形式。当获取到某字段对应的高亮显示结果后，可以通过HighlightField.getFragments()方法获取结果的Text数组形式，后续进行遍历取出即可
ES中进行纠错匹配时使用fuzzy-match搜索
match查询支持模糊匹配，这里的模糊匹配指的是ES将查询文本进行分词进而得到分词列表，然后将列表中的词语分别和索引中的词语进行匹配，这时按照编辑距离进行模糊匹配，在符合编辑距离阈值的情况下才算是匹配 fuzziness

更精准的拼写纠错拼音分析器设置中，设置拼音单字的首字母和拼音组合的首字母全部不使用，只使用拼音单字的全拼形式。接着使用fuzzy-match和match_phrase进行联合查询
文本搜索，ES默认使用BM25算法进行相关性计算
TF-IDF=TF·IDF TF-IDF（Term Frequency-Inverse Document Frequency，词频-逆文档频率）是文本挖掘和信息检索工作中数据处理的常用加权技术之一，主要作用是评估词语在文档中的重要程度。
B25算法中一般来说，文档如果足够短，则其分值应该更高
boost值的设置只限定在term查询和类match查询中，其他类型的查询不能使用boost设置。boost值没有特别约束，因为它代表的是一个相对值。当该值在0～1时表示对权重起负向作用，当该值大于1时表示对权重起正向作用。
Java客户端中使用boost参数时，只需要在QueryBuilder实例中调用boost()方法即可
ES的boosting查询可用来term查询和类match查询之外的权重调整，分为两部分，一部分是positive查询，代表正向查询，另一部分是negative查询，代表负向查询。可以通过negative_boost参数设置负向查询的权重系数，该值的范围为0～1。最终的文档得分为：正向匹配值+负向匹配值×negative_boost
Java客户端中可以使用QueryBuilders.boostingQuery()方法构建BoostingQueryBuilder的实例对象
Function Score查询模式，用户可以借助该查询模式使用多种因素来影响打分逻辑
random_score随机函数对文档进行打分
script_score函数，它支持用户使用脚本自定义评分函数结果必须大于或者等于0，不能为负数，否则，ES将会报错
weight函数提供的是一个系数，最终的得分等于对原有评分乘以这个系数
字段值因子函数field_value_factor，该函数可以省去编写脚本代码的麻烦
score_mode的默认值为multiply 还有sum avg first max min
Function Score查询中使用衰减函数 gauss、linear和exp
使用衰减函数时，可以设定如下参数：·origin：用于设定计算距离的原点，该参数的值必须和字段类型相对应。·offset：用于设定距离原点多远范围内的数据将享有和原点一样的衰减值，其默认值为0。·scale：衰减曲线的一个锚点，即定义到该点的值，其衰减的值为某个值（即为decay的值）。这个锚点横坐标值的定义为原点+offset+scale，纵坐标为decay参数的值。·decay：和scale配套使用，用于设定锚点的纵坐标，即衰减值，其默认值为0.5。
Script Score默认的脚本语言为Painless cript Score查询中的脚本代码必须有返回值并且类型为数值型，如果没有返回值，则Script Score查询默认返回0
例如 GET /hotel/_search { “query”: { “script_score”: { “query”: { //查询特定文档 “match”: { “title”: “金都” } }, “script”: { “source”: “def a=1;def b=2;return a+b;” //使用脚本进行打分 } } } }
如果字段属于基本数据类型，则可以通过params._source. $field_name获取字段的值,也可以使用doc['$ field’]来引用字段，使用doc[‘$field’].value引用字段的值
访问object类型字段中的值时，除了使用“.”操作符引用该object类型的字段外，对其他字段的访问与访问索引的普通字段类似
saturation，顾名思义，它是计算饱和度的函数，其实相当于计算占比
sigmoid函数在处理数值型数据时将其值的变换值映射到0～1
ScriptScoreQueryBuilder
默认情况下，当存在二次打分时，文档的得分为：原始查询分数+二次打分分数。而用户可以为这两部分的分数设置权重，所以文档得分为：原始查询分数×原始查询权重+二次打分分数×二次打分权重。
可以分别设置query_weight和rescore_query_weight，为原始查询权重和二次打分权重赋值
Java客户端中，需要为searchSourceBuilder对象添加QueryRescorerBuilder对象才能进行二次打分
ES支持丰富的聚合操作，不仅可以使用聚合功能对文档进行计数，还可以计算文档字段的平均值、最大值和最小值等。ES还提供了桶聚合的功能，以便于对多维度数据进行聚合 AggregationBuilders
stats聚合可以将对应字段的最大值、最小值、平均值及加和值一起计算并返回计算结果
value_count聚合，该聚合用于统计字段非空值的个数 missing参数指定填充值对空值进行填充-即默认值
按多维度聚合就是桶聚合
聚合的桶也需要匹配，匹配的方式有terms、filter和ranges等 TermsAggregationBuilder AggregationBuilders sumAggregationBuilder RangeAggregationBuilder GeoDistanceAggregationBuilder AvgAggregationBuilder
桶字段类型不是keyword类型，ES在聚合时会将桶字段转换为Lucene存储的实际值进行识别
直接聚合先查询再聚合

前过滤器聚合条件进一步地过滤，但是又不能影响当前的查询条件则可以在aggs中使用filter FilterAggregationBuilder
后过滤器 post_filter searchSourceBuilder.postFilter BucketOrder
Top hits聚合和Collapse聚合，并分别给出这两种查询的分页方案 agges中指定total_hits
TopHitsAggregationBuilder

与Top hits聚合不同，Collapse聚合的结果是封装在hit中的 CollapseBuilder

搜索建议的需求主要关注两点，即匹配和排序。匹配即能够通过用户的输入进行前缀匹配，给出匹配的搜索热词。用户的输入分为3种，即根据汉字输入、根据拼音全拼输入和根据拼音的首字母输入。排序即根据建议词的优先级进行排序，排序的优先级按照汉字输入匹配、拼音全拼输入匹配和拼音的首字母输入匹配逐次递减。

后端需要将用户搜索日志收集在一起，以供搜索建议等模块使用如果数据量比较大，还需要用到Hadoop等分布式存储服务。
Canal、Flume和Hadoop等组件，这些组件是搜索引擎服务中不可或缺的部分，因为它们和搜索的主服务一起构成了数据的流通闭环
Canal是阿里巴巴开源的监听Binlog日志的组件，它实现了MySQL Slave与MySQL Master之间的通信协议，将自己伪装成MySQL Slave，从而获取和解析Binlog日志。对于解析结果的存储，Canal提供了很多对接方案，用户可选择配置Kafka、HBase、ES等存储组件
Flume是一种高可用、高并发、分布式的数据传输系统，它不仅具有故障转移和恢复机制，而且具有一定的健壮性和容错性。借助Flume，用户可以在多种日志场景中定义数据的输入端和输出端通过Flume可以将业务日志传输到HDFS中。Flume可用于传输大量事件数据，如行为日志、图像信息流等，因此业界一般都用它来完成数据的汇总工作。
Hadoop是一个分布式系统基础架构。用户可以使用Hadoop提供的开发接口开发分布式程序，也可以使用其生态圈中的Hive进行SQL的数据开发。
从Hadoop中获取用户搜索日志后统计每个搜索关键字的搜索次数，统计的数值将作为suggest匹配后的排序权重，最后由初始化程序将处理的结果存入ES中。
只有将字段类型设置为completion，该字段才能作为suggest查询字段进行使用。