Elasticsearch-使用篇

最新推荐文章于 2024-04-15 17:39:35 发布

亚撒西·D·熊

最新推荐文章于 2024-04-15 17:39:35 发布

阅读量587

点赞数

分类专栏：工具学习文章标签： elasticsearch 大数据

本文链接：https://blog.csdn.net/qq_56571862/article/details/128850291

版权

工具学习专栏收录该内容

4 篇文章 0 订阅

订阅专栏

一、Elasticsearch使用-linux

Es常用操作

索引操作

Elasticsearch是使用RESTful风格的http请求访问操作的，请求参数和返回值都是Json格式的，我们可以使用kibana发送http请求操作ES。

域的属性

属性	作用
index	该域是否创建索引。只有值设置为true，才能根据该域的关键词查询文档。
type	域的类型
store	是否单独存储。如果设置为true，则该域能够单独查询。
analyzer	standard、(ik_smart、ik_max_word)、pinyin、自定义分词器

type

核心类型	具体类型
字符串类型	text
整数类型	long, integer, short, byte
浮点类型	double, float
日期类型	date
布尔类型	boolean
数组类型	array
对象类型	object
不分词的字符串	keyword

根据关键词查询文档

index

# 根据关键词查询文档
# 创建索引："index": true
PUT /student1
{
  "mappings": {
    "properties": {
      "name":{
        "type": "text",
        "index": true
      }
    }
  }
}
# 不创建索引："index": false
PUT /student2
{
  "mappings": {
    "properties": {
      "name":{
        "type": "text",
        "index": false
      }
    }
  }
}
# 创建文档
POST /student1/_doc/1
{
  "name":"i love java"
}
POST /student2/_doc/1
{
  "name":"i love java"
}
# 搜索文档
GET /student1/_search
{
  "query": {
    "term": {
        "name": "love"
    }
  }
}
GET /student2/_search
{
  "query": {
    "term": {
        "name": "love"
    }
  }
}

单独查询某个域

// 单独查询某个域：
GET /索引名/_search
{
  "stored_fields": ["域名"]
}

分词器

ES文档的数据拆分成一个个有完整含义的关键词，并将关键词与文档对应，这样就可以通过关键词查询文档。要想正确的分词，需要选择合适的分词器。

⑴默认分词器：standard

standard analyzer：Elasticsearch默认分词器，根据空格和标点符号对英文进行分词，会进行单词的大小写转换。
默认分词器是英文分词器，对中文的分词是一字一词。

GET /_analyze
{
  "text": ["i love spring"],
  "analyzer": "standard"
}

⑵IK分词器

IKAnalyzer是一个开源的，基于java语言开发的轻量级的中文分词工具包。提供了两种分词算法：
ik_smart：最少切分
ik_max_word：最细粒度划分

GET /_analyze
{
  "text": ["我爱百战程序员"],
  "analyzer": "ik_smart"
}
----------------------------------------
GET /_analyze
{
  "text": ["我爱百战程序员"],
  "analyzer": "ik_max_word"
}

IK分词器词典

IK分词器根据词典进行分词，词典文件在IK分词器的config目录中。
main.dic：IK中内置的词典。记录了IK统计的所有中文单词。
IKAnalyzer.cfg.xml：用于配置自定义词库。

主配置文件

：配置文件名：配置文件名
cd /usr/local/elasticsearch1/plugins/analysis-ik/config/

vim IKAnalyzer.cfg.xml 

<?xml version="1.0" encoding="utf-8" ?>
<!DOCTYPE properties SYSTEM "http://java.sun.com/dtd/properties.dtd/">
<properties>
    <comment>IK Analyzer 扩展配置</comment>
    <!--用户可以在这里配置自己的扩展字典 -->
    <entry key="ext_dict">ext_dict.dic</entry>
    <!--用户可以在这里配置自己的扩展停止词字典-->
    <entry key="ext_stopwords">ext_stopwords.dic</entry>
    <!--用户可以在这里配置远程扩展字典 -->
    <!-- <entry key="remote_ext_dict">words_location</entry> -->
    <!--用户可以在这里配置远程扩展停止词字典-->
    <!-- <entry key="remote_ext_stopwords">words_location</entry> -->
</properties>

自定义词

cd /usr/local/elasticsearch1/plugins/analysis-ik/config/

# 新增词
vim ext_dict.dic
# 禁止词
vim ext_stopwords.dic

⑶拼音分词器

GET /_analyze
{
  "text": ["我爱英雄联盟"],
  "analyzer": "pinyin"
}

⑷自定义分词器

真实开发中我们往往需要对一段内容既进行文字分词，又进行拼音分词，此时我们需要自定义ik+pinyin分词器。
在创建索引时自定义分词器

PUT /索引名
{
  "settings": {
    "analysis": {
      "analyzer": {
        "ik_pinyin": {//自定义分词器名
          "tokenizer": "ik_max_word",// 基本分词器
          "filter": "pinyin_filter"// 配置分词器过滤
        }
      },
      "filter": {// 分词器过滤时配置另一个分词器，相当于同时使用两个分词器
        "pinyin_filter": {// 另一个分词器
          "type": "pinyin",// 拼音分词器的配置
          "keep_separate_first_letter": false,// 是否分词每个字的首字母
          "keep_full_pinyin": true,// 是否分词全拼
          "keep_original": true,// 是否保留原始输入
          "remove_duplicated_term": true// 是否删除重复项
        }
      }
    }
  },
  "mappings": {
    "properties": {
      "域名1": {
        "type": 域的类型,
        "store": 是否单独存储,
        "index": 是否创建索引,
        "analyzer": 分词器
      },
      "域名2": {
        ...
      }
    }
  }
}

实例

PUT /student3
{
  "settings": {
    "analysis": {
      "analyzer": {
        "ik_pinyin":{
          "tokenizer": "ik_max_word",
          "filter": "pinyin_filter"
        }
      },
      "filter": {
        "pinyin_filter":{
          "type": "pinyin",
          "keep_separate_first_letter": false,
          "keep_full_pinyin": true,
          "keep_original": true,
          "remove_duplicated_term": true
        }
      }
    }
  },
  "mappings": {
    "properties": {
      "name": {
        "type": "text",
        "store": true,
        "index": true, 
        "analyzer": "ik_pinyin"
      },
      "age": {
        "type": "integer"
      }
    }
  }
}

①、创建索引(PUT)

创建没有结构的索引

索引添加结构

    POST /索引名/_mapping 
    {
        "properties":{
            "域名1":{
                "type":域的类型,
                "store":是否存储,
                "index":是否创建索引,
                "analyzer":分词器
            },
            "域名2":{
 				...
            }
        }
    }

实例

# 创建索引
put /student
# 创建结构
POST /student/_mapping
{
  "properties":{
    "id":{
      "type":"integer"
    },
    "name":{
      "type":"text"
    },
    "age":{
      "type":"integer"
    }
  }
}

创建有结构的索引

    PUT /索引名 
    {
        "mappings":{
            "properties":{
                "域名1":{
                    "type":域的类型,
                    "store":是否单独存储,
                    "index":是否创建索引,
                    "analyzer":分词器
                },
                "域名2":{
				 ...
                }
            }
        }
    }

实例

# 创建索引&结构
PUT /student1
{
  "mappings": {
    "properties": {
      "id":{
        "type": "integer"
      },
      "name":{
        "type": "text"
      },
      "age":{
        "type": "integer"
      }
    }
  }
}

②、删除索引(DELETE)

DELETE /索引名

实例

DELETE /student1

文档操作

①、新增/修改文档

id值不写时自动生成文档id，id和已有id重复时修改文档

POST /索引/_doc/[id值]
{
 "field名":field值
}

实例

# 新增/修改文档
POST /student/_doc/1
{
  "id":1,
  "name":"bz",
  "age":20
}

②、查询文档

实例	作用
GET /索引/_doc/id值	根据id查询文档
GET /索引/_mget	根据id批量查询文档
GET /索引/_search	查询所有文档
POST /索引/_doc/id值/_update	修改文档部分字段

根据id查询文档

# 根据id查询文档
GET /student/_doc/1

根据id批量查询文档

# 根据id批量查询文档
GET /student/_mget
{
  "docs":[
    {"_id":1},
    {"_id":2}
  ]
}

查询所有文档

# 查询所有文档
GET /student/_search
{
  "query": {
    "match_all": {}
  }
}

修改文档部分字段

Elasticsearch执行删除操作时，ES先标记文档为deleted状态，而不是直接物理删除。当ES存储空间不足或工作空闲时，才会执行物理删除操作。
Elasticsearch执行修改操作时，ES不会真的修改Document中的数据，而是标记ES中原有的文档为deleted状态，再创建一个新的文档来存储数据。

# 修改文档部分内容
POST /student/_doc/2/_update
{
  "doc":{
    "name":"tttttttttttttt"
  }
}

③、删除文档

DELETE /索引/_doc/id值

实例

# 删除文档 
DELETE /student/_doc/1

Elasticsearch搜索文档

GET /索引/_search
{
 "query":{
        搜索方式:搜索参数
   }
}

搜索方式	搜索参数	含义
match_all	{}	查询所有文档
match	{搜索字段:搜索条件}	将查询条件分词后再进行搜索。
range	{搜索字段:{“gte”:最小值,“lte”:最大值 }}	对数字类型的字段进行范围搜索
match_phrase	{搜索字段:搜索条件}	搜索条件不做任何分词解析
~~term/terms~~

创建搜索数据

# 搜索文档
PUT /students
{
  "mappings": {
    "properties": {
      "id": {
        "type": "integer",
        "index": true
      },
      "name": {
        "type": "text",
        "store": true,
        "index": true,
        "analyzer": "ik_smart"
      },
      "info": {
        "type": "text",
        "store": true,
        "index": true,
        "analyzer": "ik_smart"
      }
    }
  }
}

# 添加数据
POST /students/_doc/
{
  "id":1,
  "name":"IT小熊",
  "info":"I love java"
}
POST /students/_doc/
{
  "id":2,
  "name":"美羊羊",
  "info":"美羊羊是羊村最漂亮的羊"
}
POST /students/_doc/
{
  "id":3,
  "name":"懒洋洋",
  "info":"懒洋洋的成绩不是很好"
}
POST /students/_doc/
{
  "id":4,
  "name":"小灰灰",
  "info":"小灰灰的成绩比较小"
}
POST /students/_doc/
{
  "id":5,
  "name":"沸羊羊",
  "info":"沸羊羊喜欢美羊羊"
}
POST /students/_doc/
{
  "id":6,
  "name":"灰太狼",
  "info":"灰太狼是小灰灰的父亲，口头禅是我一定会回来的"
}

①、简单搜索

⑴查询所有文档

格式：

{
 "query":{
        "match_all":{}
   }
}

实例

# 查询所有文档
GET /students/_search
{
  "query": {
    "match_all": {}
  }
}

⑵全文检索（match）

将查询条件分词后再进行搜索。

在搜索时关键词有可能会输入错误，ES搜索提供了自动纠错功能，即ES的模糊查询。使用match方式可以实现模糊查询。模糊查询对中文的支持效果一般，我们使用英文数据测试模糊查询。

格式：

{
 "query":{
        "match":{
            搜索字段:搜索条件
       }
   }
}

实例一

# 全文检索(包含其中的词，就会被检索到)
GET /students/_search
{
  "query": {
    "match": {
      "info": "我喜欢成绩好的"
    }
  }
}

实例二



----------------------------------
纠错
GET /students/_search
{
  "query": {
    "match": {
        "info": {
            "query":"love",
            "fuzziness":1
        }
    }
  }
}

⑶范围搜索（range）

对数字类型的字段进行范围搜索

格式：

{
 "query":{
        "range":{
            搜索字段:{
                "gte":最小值,
                "lte":最大值
           }
       }
   }
}
gt/lt:大于/小于
gte/lte:大于等于/小于等于

实例

# 范围搜索
GET /students/_search
{
  "query": {
    "range": {
      "id": {
        "gte": 1,
        "lte": 3
      }
    }
  }
}

⑷短语检索

搜索条件不做任何分词解析，在搜索字段对应的倒排索引中精确匹配。

格式：

{
 "query":{
        "match_phrase":{
            搜索字段:搜索条件
       }
   }
}

实例

# 短语检索
GET /students/_search
{
  "query": {
    "match_phrase": {
      "info": "喜欢"
    }
  }
}

⑸单词/词组搜索

搜索条件不做任何分词解析，在搜索字段对应的倒排索引中精确匹配

格式：

{
 "query":{
        "term/terms":{  
 		搜索字段: 搜索条件
       }
   }
}

实例

# 单词检索
GET /students/_search
{
  "query": {
    "terms": {
      "info": [
        "成绩",
        "喜欢"
      ]
    }
  }
}

②、复合搜索

方式	含义
must	必须满足的条件
should	多个条件有任意一个满足即可
must_not	必须不满足的条件

格式：

GET /索引/_search
{
  "query": {
    "bool": {
      // 必须满足的条件
      "must": [
        搜索方式:搜索参数,
        搜索方式:搜索参数
      ],
      // 多个条件有任意一个满足即可
      "should": [
        搜索方式:搜索参数,
        搜索方式:搜索参数
      ],
      // 必须不满足的条件
      "must_not": [
        搜索方式:搜索参数,
        搜索方式:搜索参数
      ]
    }
  }
}

实例

# 复合搜索
GET /students/_search
{
  "query": {
    "bool": {
      "must": [
        {
          "match": {
            "info": "美羊羊喜欢成绩好的同学"
          }
        }
      ],
      "must_not": [
        {
          "range": {
            "FIELD": {
              "gte": 1,
              "lte": 3
            }
          }
        }
      ]
    }
  }
}

③、结果排序

ES中默认使用相关度分数实现排序，可以通过搜索语法定制化排序。

由于ES对text类型字段数据会做分词处理，使用哪一个单词做排序都是不合理的，所以 ES中默认不允许对text类型的字段做排序。如果需要使用字符串做结果排序，可以使用 keyword类型的字段作为排序依据，因为keyword字段不做分词处理。

格式：

GET /索引/_search
{
  "query": 搜索条件,
  "sort": [
    {
      "字段1":{
        "order":"asc"
      }
    },
    {
      "字段2":{
        "order":"desc"
      }
    }
  ]
}

实例

# 结果排序
GET /students/_search
{
  "query": {
    "match": {
      "info": "我喜欢成绩好的同学"
    }
  },
  "sort": [
    {
      "id": {
        "order": "desc"
      }
    }
  ]
}

④、分页查询

格式：

GET /索引/_search
{
 "query": 搜索条件,
 "from": 起始下标,
 "size": 查询记录数
}

实例

# 分页查询
GET /students/_search
{
  "query": {
    "match_all": {}
  },
  "from": 4,
  "size": 4
}

⑤、高亮查询

在进行关键字搜索时，搜索出的内容中的关键字会显示不同的颜色，称之为高亮。

我们可以在关键字左右加入标签字符串，数据传入前端即可完成高亮显示，ES可以对查询出的内容中关键字部分进行标签和样式的设置。

格式：

GET /索引/_search
{
  "query":搜索条件,
  "highlight":{
    "fields": {
      "高亮显示的字段名": {
        // 返回高亮数据的最大长度
        "fragment_size":100,
        // 返回结果最多可以包含几段不连续的文字
        "number_of_fragments":5
      }
    },
    "pre_tags":["前缀"],
    "post_tags":["后缀"]
  }
}

实例

# 高亮查询
GET /students/_search
{
  "query": {
    "match": {
      "info": "我喜欢成绩好的同学"
    }
  },
  "highlight": {
    "fields": {
      "info": {
        "fragment_size": 100,
        "number_of_fragments": 5
      }
    },
    "pre_tags": ["<em>"],
    "post_tags": ["</em>"]
  }
}

⑥、SQL查询

开源版本的ES并不支持通过Java操作SQL进行查询，如果需要操作 SQL查询，则需要氪金（购买白金版）

格式：

GET /_sql?format=txt
{
 "query": SQL语句
}

实例

# SQL查询
GET /_sql?format=txt
{
  "query": "select * from students"
}

ES自动补全

自动补全对性能要求极高，ES不是通过倒排索引来实现的，所以需要将对应的查询字段类型设置为completion。

GET /索引/_search
{
  "suggest": {
    "prefix_suggestion": {// 自定义推荐名
      "prefix": "elastic", // 被补全的关键字
      "completion": {
        "field": "productName", // 查询的域
        "skip_duplicates": true, //忽略重复结果
        "size": 10 //最多查询到的结果数
      }
    }
  }
}

# 创建索引
PUT /product2
{
  "mappings": {
    "properties": {
      "id":{
        "type": "integer",
        "store": true,
        "index": true
      },
      "productName":{
        "type": "completion"
      },
      "productDesc":{
        "type": "text",
        "store": true,
        "index": true
      }
    }
  }
}

# 准备数据
POST /product2/_doc
{
  "id":1,
  "productName":"elasticsearch1",
  "productDesc":"elasticsearch1 is a good engine"
}
POST /product2/_doc
{
  "id":2,
  "productName":"elasticsearch2",
  "productDesc":"elasticsearch2 is a good engine"
}
POST /product2/_doc
{
  "id":3,
  "productName":"elasticsearch3",
  "productDesc":"elasticsearch3 is a good engine"
}

# 搜索
GET /product2/_search
{
  "suggest": {
    "prefix_SUGGESTION": {
      "prefix": "elastic",
      "completion": {
        "field": "productName",
        "skip_duplicates": true,
        "size": 10
      }
    }
  }
}

二、Elasticsearch使用-Maven

导入依赖

        <!-- es 依赖 版本和使用的软件相同 -->
        <dependency>
            <groupId>org.elasticsearch</groupId>
            <artifactId>elasticsearch</artifactId>
            <version>7.17.0</version>
        </dependency>
        <!-- es 客户端 -->
        <dependency>
            <groupId>org.elasticsearch.client</groupId>
            <artifactId>elasticsearch-rest-high-level-client</artifactId>
            <version>7.17.0</version>
        </dependency>