深入elasticsearch

mymk01

已于 2022-01-19 10:47:16 修改

阅读量1k

点赞数

分类专栏：微服务文章标签： elasticsearch 大数据 big data

于 2022-01-18 17:02:52 首次发布

本文链接：https://blog.csdn.net/m0_61107050/article/details/122533861

版权

微服务专栏收录该内容

17 篇文章 1 订阅

订阅专栏

1.数据聚合

1.聚合的分类

聚合（aggregations）可以实现对文档数据的统计、分析、运算。聚合常见的有三类：

桶（ Bucket ）聚合：用来对文档做分组

• TermAggregation ：按照文档字段值分组

• Date Histogram ：按照日期阶梯分组，例如一周为一组，或者一月为一组

度量（ Metric ）聚合：用以计算一些值，比如：最大值、最小值、平均值等

• Avg：求平均值

• Max：求最大值

• Min：求最小值

• Stats ：同时求 max 、 min 、 avg 、 sum 等

管道（ pipeline ）聚合：其它聚合的结果为基础做聚合

参与聚合的字段必须是：keyword，数值，日期，布尔

2.DSL实现聚合

1.DSL实现Bucker聚合

GET /hotel/_search
{
  "size": 0,  // 设置size为0，结果中不包含文档，只包含聚合结果
  "aggs": { // 定义聚合
    "brandAgg": { //给聚合起个名字
      "terms": { // 聚合的类型，按照品牌值聚合，所以选择term
        "field": "brand", // 参与聚合的字段
        "size": 20 // 希望获取的聚合结果数量
      }
    }
  }
}

2.Bucker聚合-聚合结果排序

默认情况下，Bucket聚合会统计Bucket内的文档数量，记为_count，并且按照_count降序排序。
我们可以修改结果排序方式

GET /hotel/_search
{
  "size": 0, 
  "aggs": {
    "brandAgg": {
      "terms": {
        "field": "brand",
        "order": {
          "_count": "asc" // 按照_count升序排列
        },
        "size": 20
      }
    }
  }
}

3.Bucker聚合-限定聚合范围

默认情况下，Bucket聚合是对索引库的所有文档做聚合，我们可以限定要聚合的文档范围，只要添加query条件即可

GET /hotel/_search
{
  "query": {
    "range": {
      "price": {
        "lte": 200 // 只对200元以下的文档聚合
      }
    }
  }, 
  "size": 0, 
  "aggs": {
    "brandAgg": {
      "terms": {
        "field": "brand",
        "size": 20
      }
    }
  }
}

3.DSL实现Metrics聚合

例如，我们要求获取每个品牌的用户评分的min、max、avg等值.
我们可以利用stats聚合：

GET /hotel/_search
{
  "size": 0, 
  "aggs": {
    "brandAgg": { 
      "terms": { 
        "field": "brand", 
        "size": 20
      },
      "aggs": { // 是brands聚合的子聚合，也就是分组后对每组分别计算
        "score_stats": { // 聚合名称
          "stats": { // 聚合类型，这里stats可以计算min、max、avg等
            "field": "score" // 聚合字段，这里是score
          }
        }
      }
    }
  }
}

3.RestApi实现聚合

    private RestHighLevelClient client;   
    @Test
    void testAggregation() throws IOException {
        //1.准备Request
        SearchRequest request = new SearchRequest("hotel");
        //2.准备DSL
        //2.1设置size
        request.source().size(0);
        //2.2聚合
        request.source().aggregation(AggregationBuilders
                .terms("brandAgg")
                .field("brand")
                .size(10));
        //3.发出请求
        SearchResponse response = client.search(request, RequestOptions.DEFAULT);
        //4.解析结果
        Aggregations aggregations = response.getAggregations();
        //4.1根据聚合名称获取聚合结果
        Terms brandTerms = aggregations.get("brandAgg");
        //4,2获取buckets
        List<? extends Terms.Bucket> buckets = brandTerms.getBuckets();
        //4.3遍历
        for (Terms.Bucket bucket : buckets) {
            //4.4获取key
            String key = bucket.getKeyAsString();
            System.out.println(key);
        }
    }
    @BeforeEach
    void setUp() {
        this.client=new RestHighLevelClient(RestClient.builder(
                HttpHost.create("http://192.168.64.131:9200")
        ));
    }
    @AfterEach
    void tearDown() throws IOException {
        this.client.close();
    }

2.自动补全

1.使用拼音分词

要实现根据字母做补全，就必须对文档按照拼音分词。在GitHub上恰好有elasticsearch的拼音分词插件。地址：https://github.com/medcl/elasticsearch-analysis-pinyin

安装方式与IK分词器一样，分三步：

① 解压

② 上传到虚拟机中， elasticsearch 的 plugin 目录

③ 重启 elasticsearch

④ 测试

POST /_analyze
{
  "text": "如家酒店",
  "analyzer": "pinyin"
}

2.自定义分词器

elasticsearch中分词器（analyzer）的组成包含三部分：

character filters ：在 tokenizer 之前对文本进行处理。例如删除字符、替换字符

tokenizer ：将文本按照一定的规则切割成词条（ term ）。例如 keyword ，就是不分词；还有 ik_smart

tokenizer filter ：将 tokenizer 输出的词条做进一步处理。例如大小写转换、同义词处理、拼音处理等

我们可以在创建索引库时，通过settings来配置自定义的analyzer（分词器）

PUT /test
{
  "settings": {
    "analysis": {
      "analyzer": { // 自定义分词器
        "my_analyzer": {  // 分词器名称
          "tokenizer": "ik_max_word",
          "filter": "py"
        }
      },
      "filter": { // 自定义tokenizer filter
        "py": { // 过滤器名称
          "type": "pinyin", // 过滤器类型，这里是pinyin
	      "keep_full_pinyin": false,
          "keep_joined_full_pinyin": true,
          "keep_original": true,
          "limit_first_letter_length": 16,
          "remove_duplicated_term": true,
          "none_chinese_pinyin_tokenize": false
        }
      }
    }
  },
  "mappings": {
    "properties": {
      "name":{
        "type": "text", 
        "analyzer": "my_analyzer",
        "search_analyzer": "ik_smart"
       //拼音分词器适合在创建倒排索引的时候使用，但不能在搜索的时候使用
        因此字段在创建倒排索引时应该用my_analyzer分词器；字段在搜索时应该使用ik_smart分词器
      }
    }
  }
}

3.completion suggester查询

elasticsearch提供了Completion Suggester查询来实现自动补全功能。这个查询会匹配以用户输入内容开头的词条并返回。为了提高补全查询的效率，对于文档中字段的类型有一些约束：

• 参与补全查询的字段必须是 completion 类型。

• 字段的内容一般是用来补全的多个词条形成的数组。

// 创建索引库PUT test
{
  "mappings": {
    "properties": {
      "title":{
        "type": "completion"
      }
    }
  }
}
// 示例数据
POST test/_doc
{
  "title": ["Sony", "WH-1000XM3"]
}
POST test/_doc
{
  "title": ["SK-II", "PITERA"]
}
POST test/_doc
{
  "title": ["Nintendo", "switch"]
}
// 自动补全查询语法
GET /test/_search
{
  "suggest": {
    "title_suggest": {
      "text": "s", // 关键字
      "completion": {
        "field": "title", // 补全查询的字段
        "skip_duplicates": true, // 跳过重复的
        "size": 10 // 获取前10条结果
      }
    }
  }
}

4.实现hotel索引库的自动补全、拼音搜索功能

实现思路如下：

1. 修改 hotel 索引库结构，设置自定义拼音分词器

2. 修改索引库的 name 、 all 字段，使用自定义分词器

3. 索引库添加一个新字段 suggestion ，类型为 completion 类型，使用自定义的分词器

4. 给 HotelDoc 类添加 suggestion 字段，内容包含 brand 、 business

5. 重新导入数据到 hotel 库

●

注意：name、all是可分词的，自动补全的brand、business是不可分词的，要使用不同的分词器组合

3.数据同步

1.数据同步问题分析

elasticsearch中的酒店数据来自于mysql数据库，因此mysql数据发生改变时，elasticsearch也必须跟着改变，这个就是elasticsearch与mysql之间的数据同步。

1.方案一：同步调用

优点：实现简单，粗暴
缺点：业务耦合度高

2.方案二：异步通知

优点：低耦合，实现难度一般
缺点：依赖mq的可靠性

3.方案三：监听binlog

优点：完全解除服务间耦合
缺点：开启binlog增加数据库负担、实现复杂度高

QTMD!

ES安装与集群搭建

mymk01

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
深入elasticsearch

1.数据聚合1.聚合的分类聚合（aggregations）可以实现对文档数据的统计、分析、运算。聚合常见的有三类：桶（Bucket）聚合：用来对文档做分组•TermAggregation：按照文档字段值分组•Date Histogram：按照日期阶梯分组，例如一周为一组，或者一月为一组度量（Metric）聚合：用以计算一些值，比如：最大值、最小值、平均值等•Avg：求平均值•Max：求最大值•Min：求最小值•Stats：同时求max、min、avg、sum等
复制链接

扫一扫