es 5.2版本学习笔记01

最新推荐文章于 2024-03-30 10:20:45 发布

姚灿鹏

最新推荐文章于 2024-03-30 10:20:45 发布

阅读量170

点赞数

分类专栏： es 文章标签： elasticsearch

本文链接：https://blog.csdn.net/qq_34777149/article/details/104567330

版权

es 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

*1 什么是Elasticsearch
1、Elasticsearch的功能
分布式，搜索，数据分析
elasticsearch，基于lucene，隐藏复杂性，提供简单易用的restful api接口、java api接口（还有其他语言的api接口）
（1）分布式的文档存储引擎
（2）分布式的搜索引擎和分析引擎
（3）分布式，支持PB级数据
在这里插入图片描述

2、elasticsearch的核心概念

（1）Near Realtime（NRT）：近实时，两个意思，从写入数据到数据可以被搜索到有一个小延迟（大概1秒）；基于es执行搜索和分析可以达到秒级

（2）Cluster：集群，包含多个节点，每个节点属于哪个集群是通过一个配置（集群名称，默认是elasticsearch）来决定的，对于中小型应用来说，刚开始一个集群就一个节点很正常
（3）Node：节点，集群中的一个节点，节点也有一个名称（默认是随机分配的），节点名称很重要（在执行运维管理操作的时候），默认节点会去加入一个名称为“elasticsearch”的集群，如果直接启动一堆节点，那么它们会自动组成一个elasticsearch集群，当然一个节点也可以组成一个elasticsearch集群

（4）Document&field：文档，es中的最小数据单元，一个document可以是一条客户数据，一条商品分类数据，一条订单数据，通常用JSON数据结构表示，每个index下的type中，都可以去存储多个document。一个document里面有多个field，每个field就是一个数据字段。

product document

{
“product_id”: “1”,
“product_name”: “高露洁牙膏”,
“product_desc”: “高效美白”,
“category_id”: “2”,
“category_name”: “日化用品”
}

（5）Index：索引，包含一堆有相似结构的文档数据，比如可以有一个客户索引，商品分类索引，订单索引，索引有一个名称。一个index包含很多document，一个index就代表了一类类似的或者相同的document。比如说建立一个product index，商品索引，里面可能就存放了所有的商品数据，所有的商品document。
（6）Type：类型，每个索引里都可以有一个或多个type，type是index中的一个逻辑数据分类，一个type下的document，都有相同的field，比如博客系统，有一个索引，可以定义用户数据type，博客数据type，评论数据type。

商品index，里面存放了所有的商品数据(商品document)
index: 商品
type:日化商品type，电器商品type，生鲜商品type
日化商品type：product_id，product_name，product_desc，category_id，category_name
电器商品type：product_id，product_name，product_desc，category_id，category_name，service_period
生鲜商品type：product_id，product_name，product_desc，category_id，category_name，eat_period

每一个type里面，都会包含一堆document(一条数据就是一个document)
商品index - 商品类型 type -商品数据document（属性field）

（7）shard：单台机器无法存储大量数据，es可以将一个索引中的数据切分为多个shard，分布在多台服务器上存储。有了shard就可以横向扩展，存储更多数据，让搜索和分析等操作分布到多台服务器上去执行，提升吞吐量和性能。每个shard都是一个lucene index。
（8）replica：任何一个服务器随时可能故障或宕机，此时shard可能就会丢失，因此可以为每个shard创建多个replica副本。replica可以在shard故障时提供备用服务，保证数据不丢失，多个replica还可以提升搜索操作的吞吐量和性能。primary shard（建立索引时一次设置，不能修改，默认5个），replica shard（随时修改数量，默认1个），默认每个索引10个shard，5个primary shard，5个replica shard，最小的高可用配置，是2台服务器。
shard和replica的解释

3、elasticsearch核心概念 vs. 数据库核心概念

Elasticsearch 数据库
Document 行
Type 表
Index 库

在这里插入图片描述

在这里插入图片描述
索引库采用什么方式存储？
新增数据流程
删除，更新流程
一直新增，如何解决segment多，进行合并
写入缓存的数据，如果保存不丢，每次都会记录一次操作日志记录到磁盘

操作工具kibana-5.2.0-windows-x86

命令
（1）快速查看集群健康状态
GET _/cat/health?v
status : green yellow red
green: 每个索引的primary shard和replica shard都是active状态的
yellow: 每个索引的primary shard都是active状态的，但是部分replica shard不是，处于不可用
red:不是所有primary shard都是active状态的，部分索引数据丢失

（2）快速查看集群中有哪些索引

GET /_cat/indices?v

（3）简单的索引操作

创建索引：PUT /test_index?pretty
删除索引：DELETE /test_index?pretty

商品的CRUD操作

（1）新增商品：新增文档，建立索引
PUT /index/type/id{
“json数据”
}
例如
PUT /ecommerce/product/1
{
“name” : “gaolujie yagao”,
“desc” : “gaoxiao meibai”,
“price” : 30,
“producer” : “gaolujie producer”,
“tags”: [ “meibai”, “fangzhu” ]
}
新增成功返回
{
“_index”: “ecommerce”,索引名称
“_type”: “product”,类型
“_id”: “1”,
“_version”: 1, 版本号涉及es乐观锁并发策略
“result”: “created”,
“_shards”: {
“total”: 2, 数据分primary和relica主从都一个
“successful”: 1, 只有主节点没开从节点所以1个
“failed”: 0
},
（2）查询商品：检索文档
GET /index/type/id

（3）修改商品：替换文档
PUT /ecommerce/product/1
{
“name” : “jiaqiangban gaolujie yagao”,
“desc” : “gaoxiao meibai”,
“price” : 30,
“producer” : “gaolujie producer”,
“tags”: [ “meibai”, “fangzhu” ]
}

替换方式有一个不好，即使必须带上所有的field，才能去进行信息的修改
不然会有其中一些field属性丢失
（4）修改商品：更新文档
POST /ecommerce/product/1/_update
{
“doc”: {
“name”: “jiaqiangban gaolujie yagao”
}
}
只修改一个field
（5）删除商品：删除文档

DELETE /ecommerce/product/1

六种搜索方式

1 query string search 搜索全部

get /ecommerce/product/_search /索引名/type名/_search

took：耗费了几毫秒
timed_out：是否超时，这里是没有
_shards：数据拆成了5个分片，所以对于搜索请求，会打到所有的primary shard（或者是它的某个replica shard也可以）
hits.total：查询结果的数量，3个document
hits.max_score：score的含义，就是document对于一个search的相关度的匹配分数，越相关，就越匹配，分数也高
hits.hits：包含了匹配搜索的document的详细数据

{
“took”: 2,
“timed_out”: false,
“_shards”: {
“total”: 5,
“successful”: 5,
“failed”: 0
},
“hits”: {
“total”: 3,
“max_score”: 1,
“hits”: [
{
“_index”: “ecommerce”,
“_type”: “product”,
“_id”: “2”,
“_score”: 1,
“_source”: {
“name”: “jiajieshi yagao”,
“desc”: “youxiao fangzhu”,
“price”: 25,
“producer”: “jiajieshi producer”,
“tags”: [
“fangzhu”
]
}
},
搜索商品名称中包含yagao的商品，而且按照售价降序排序：GET /ecommerce/product/_search?q=name:yagao&sort=price:desc
但是如果查询请求很复杂，是很难去构建的
在生产环境中，几乎很少使用query string search

2 query DSL

DSL：Domain Specified Language，特定领域的语言
http request body：请求体，可以用json的格式来构建查询语法，比较方便，可以构建各种复杂的语法，比query string search肯定强大多了

分页查询商品，总共3条商品，假设每页就显示1条商品，现在显示第2页，所以就查出来第2个商品
GET /ecommerce/product/_search
{
“query”: { “match_all”: {} },
“from”: 1,
“size”: 1
}

指定要查询出来商品的名称和价格就可以

GET /ecommerce/product/_search
{
“query”: { “match_all”: {} },
“_source”: [“name”, “price”]
}

3、query filter

搜索商品名称包含yagao，而且售价大于25元的商品

GET /ecommerce/product/_search
{
“query” : {
“bool” : {
//必须匹配 “must” : {
“match” : {
“name” : “yagao”
}
},
“filter” : {
“range” : {
“price” : { “gt” : 25 }
}
}
}
}
}

4、full-text search（全文检索）

GET /ecommerce/product/_search
{
“query” : {
“match” : {
“producer” : “yagao producer”
}
}
}
**
5、phrase search（短语搜索）

跟全文检索相对应，相反，全文检索会将输入的搜索串拆解开来，去倒排索引里面去一一匹配，只要能匹配上任意一个拆解后的单词，就可以作为结果返回
phrase search，要求输入的搜索串，必须在指定的字段文本中，完全包含一模一样的，才可以算匹配，才能作为结果返回

GET /ecommerce/product/_search
{
“query” : {
“match_phrase” : {
“producer” : “yagao producer”
}
}
}
6、highlight search（高亮搜索结果）

GET /ecommerce/product/_search
{
“query” : {
“match” : {
“producer” : “producer”
}
},
“highlight”: {
“fields” : {
“producer” : {}
}
}
}

特别语法

第一个分析需求：计算每个tag下的商品数量

GET /ecommerce/product/_search
{
聚合"aggs": {
聚合名"group_by_tags": {
按照指定field进行分组 “terms”: { “field”: “tags” }
}
}
}
将文本field的fielddata属性设置为true

PUT /ecommerce/_mapping/product
{
“properties”: {
“tags”: {
“type”: “text”,
“fielddata”: true
}
}
}
第二个聚合分析的需求：对名称中包含yagao的商品，计算每个tag下的商品数量

GET /ecommerce/product/_search
{
“size”: 0,
“query”: {
“match”: {
“name”: “yagao”
}
},
“aggs”: {
“all_tags”: {
“terms”: {
“field”: “tags”
}
}
}
}
第三个聚合分析的需求：先分组，再算每组的平均值，计算每个tag下的商品的平均价格

GET /ecommerce/product/_search
{
“size”: 0,
“aggs” : {
“group_by_tags” : {
“terms” : { “field” : “tags” },
“aggs” : {
“avg_price” : {
“avg” : { “field” : “price” }
}
}
}
}
}

第四个数据分析需求：计算每个tag下的商品的平均价格，并且按照平均价格降序排序

GET /ecommerce/product/_search
{
“size”: 0,
“aggs” : {
“all_tags” : {
“terms” : { “field” : “tags”, “order”: { “avg_price”: “desc” } },
“aggs” : {
“avg_price” : {
“avg” : { “field” : “price” }
}
}
}
}
}
第五个数据分析需求：按照指定的价格范围区间进行分组，然后在每组内再按照tag进行分组，最后再计算每组的平均价格

GET /ecommerce/product/_search
{
“size”: 0,
“aggs”: {
“group_by_price”: {
“range”: {
“field”: “price”,
“ranges”: [
{
“from”: 0,
“to”: 20
},
{
“from”: 20,
“to”: 40
},
{
“from”: 40,
“to”: 50
}
]
},
“aggs”: {
“group_by_tags”: {
“terms”: {
“field”: “tags”
},
“aggs”: {
“average_price”: {
“avg”: {
“field”: “price”
}
}
}
}
}
}
}
}