ElasticSearch分布式搜索引擎-03

最新推荐文章于 2022-09-22 17:35:04 发布

endorphinnnn

最新推荐文章于 2022-09-22 17:35:04 发布

阅读量1.2k

点赞数 4

分类专栏：笔记文章标签：搜索引擎 elasticsearch 分布式

本文链接：https://blog.csdn.net/DOVISSSS/article/details/126813023

版权

笔记专栏收录该内容

42 篇文章 1 订阅

订阅专栏

1、数据聚合

聚合可以让我们极其方便的实现对数据的统计、分析、运算。查询速度非常快，可以实现近实时搜索效果

1.1.聚合的种类

聚合常见的有三类：

桶（Bucket）聚合：用来对文档做分组
- TermAggregation：按照文档字段值分组，例如按照品牌分组（mysql中的groupby）
- Date Histogram：按照日期阶梯分组，例如一周为一组
度量（Metric）聚合：用以计算一些值，比如：最大值、最小值等
- Avg：求平均值
- Max：求最大值
- Min：求最小值
- Stats：同时求max、min、avg、sum等
管道（pipeline）聚合：其他聚合的结果为基础做聚合

参加聚合的字段必须是：keyword、日期、数值、布尔类型

1.2.DSL实现聚合

Bucket聚合语法

GET /索引库名/_search
{
	"size":0, //设置size为0，结果中不包含文档，只包含聚合结果
	"aggs":{//定义聚合
		"brandAgg":{//给聚合起个名字
			"terms":{//聚合的类型，按照品牌值聚合，所以会选择term
				"field":"brand",//参与聚合的字段
				"size":20 //希望获取的聚合结果数量
			}
		}
	}
}

默认情况下，Bucket聚合会统计Bucket内的文档数量，即为count，并且按照count降序排序。可以指定order属性，自定义聚合的排序方式：

在terms字段里添加“order”：{“_count”:“asc”},按照_count升序排列

限定聚合范围
默认情况下，Bucket聚合是对索引库的所有文档做聚合，但真实场景下，用户会输入搜索条件，因此聚合必须是对搜索结果聚合。那么聚合必须添加限定条件。

我们可以限定要聚合的文档范围，只要添加query条件即可

GET /hotel/_search
{
  "query": {
    "range": {
      "price": {
        "lte": 200 // 只对200元以下的文档聚合
      }
    }
  }, 
  "size": 0, 
  "aggs": {
    "brandAgg": {
      "terms": {
        "field": "brand",
        "size": 20
      }
    }
  }
}

Metric聚合语法

GET /hotel/_search
{
  "size": 0, 
  "aggs": {
    "brandAgg": { 
      "terms": { 
        "field": "brand", 
        "size": 20
      },
      "aggs": { // 是brands聚合的子聚合，也就是分组后对每组分别计算
        "score_stats": { // 聚合名称
          "stats": { // 聚合类型，这里stats可以计算min、max、avg等
            "field": "score" // 聚合字段，这里是score
          }
        }
      }
    }
  }
}

score_stats聚合是在brandAgg的聚合内部嵌套的子聚合。因为我们需要在每个桶分别计算。

1.3.RestAPI实现聚合

2、自动补全

2.1.拼音分词器

首先要安装拼音分词器

POST /_analyze
{
  "text": "如家酒店还不错",
  "analyzer": "pinyin" //单个字变拼音
}

效果是，单个字的拼音和一句话的首字母缩写展示，没有分词不是理想的搜索结果。

2.2.自定义分词器

每个词条形成一组拼音，需要对拼音分词器做个性化定制，形成自定义分词器。

elasticsearch中分词器（analyzer）的组成包含三部分：

character filters：在tokenizer之前对文本进行处理。例如删除字符、替换字符
tokenizer：将文本按照一定的规则切割成词条（term）。例如keyword，就是不分词；还有ik_smart
tokenizer filter：将tokenizer输出的词条做进一步处理。例如大小写转换、同义词处理、拼音处理等

PUT /test
{
  "settings": {
    "analysis": {
      "analyzer": { // 自定义分词器
        "my_analyzer": {  // 分词器名称
          "tokenizer": "ik_max_word",
          "filter": "py"
        }
      },
      "filter": { // 自定义tokenizer filter
        "py": { // 过滤器名称
          "type": "pinyin", // 过滤器类型，这里是pinyin
		  "keep_full_pinyin": false,
          "keep_joined_full_pinyin": true,
          "keep_original": true,
          "limit_first_letter_length": 16,
          "remove_duplicated_term": true,
          "none_chinese_pinyin_tokenize": false
        }
      }
    }
  },
  "mappings": {
    "properties": {
      "name": {
        "type": "text",
        "analyzer": "my_analyzer",
        "search_analyzer": "ik_smart"
      }
    }
  }
}

总结：

如何使用拼音分词器？

①下载pinyin分词器
②解压并放到elasticsearch的plugin目录
③重启即可

如何自定义分词器？

①创建索引库时，在settings中配置，可以包含三部分
②character filter
③tokenizer
④filter

拼音分词器注意事项？

为了避免搜索到同音字，搜索时不要使用拼音分词器

2.3.自动补全查询

elasticsearch提供了Completion Suggester查询来实现自动补全功能。这个查询会匹配以用户输入内容开头的词条并返回。为了提高补全查询的效率，对于文档中字段的类型有一些约束：

参与补全查询的字段必须是completion类型。
字段的内容一般是用来补全的多个词条形成的数组。

// 自动补全查询
GET /test/_search
{
  "suggest": {
    "title_suggest": {
      "text": "s", // 关键字
      "completion": {
        "field": "title", // 补全查询的字段
        "skip_duplicates": true, // 跳过重复的
        "size": 10 // 获取前10条结果
      }
    }
  }
}