《ElasticStack从入门到实践》学习笔记4

最新推荐文章于 2022-09-15 21:47:15 发布

Hiwes

最新推荐文章于 2022-09-15 21:47:15 发布

阅读量420

点赞数

分类专栏：大数据相关 ElasticStack 数据分析搜索引擎文章标签：大数据 ElasticSearch

本文链接：https://blog.csdn.net/Hiwes/article/details/84615854

版权

大数据相关同时被 3 个专栏收录

21 篇文章 0 订阅

订阅专栏

数据分析

12 篇文章 0 订阅

订阅专栏

ElasticStack

11 篇文章 3 订阅

订阅专栏

四、ElasticSearch的Search API

0、在ES中，为了实现对存储的数据进行查询分析，使用endpoint：_search。

可以实现对索引的不同查询，如：

A、实现对所有索引的泛查询：GET /_search

B、实现对一个索引的单独查询：GET /my_index/_search

C、实现对多个索引的指定查询：GET /my_index1,my_index2/_search

D、实现对符合指定要求的索引进行查询：GET /my_*/_search

在进行查询的时候，主要有两种方式：

A）URI Search。

特点：操作简单，直接通过命令行方便测试，但仅包含部分查询语法；

举例：

#URI Search方式进行查询
GET /my_index/_search?q=username:alfred

B）Request Body Search。

特点：ES提供的完备查询语法，使用Query DSL(Domain Specific Language)进行查询。

举例：

Request Body Search方式进行查询
GET /my_index/_search
{
 "query":{
  "match":{
   "username":"alfred"
  }
 }
}

1、URI Search：

1）通过url query参数实现搜索，常用参数有：

A、q 指定查询的语句，使用query string syntax语法

B、df q中不指定字段时默认查询的字段 ===> 在不指定的时候默认查询所有字段

C、sort 排序

D、timeout 指定超时时间，默认不超时

E、from，size 用于分页

举例：

#使用url query查询示例：
GET my_index/_search?q=alfred&df=username&sort=age:asc&from=4&size=10&timeout=1s

解释：

查询索引my_index中username字段中包含alfred的文档，结果按age字段升序排列，返回第5——14个文档，若超过1s未结束，则以超时结束。

2）query string syntax语法

前置内容：term————单词，phrase————词语。

A、单词与词语语法：

单词：alfred way 等价于 alfred OR way

词语："alfred way" 语句查询，要求先后顺序

泛查询：不指定字段，会在所有字段中去匹配其单词

指定字段查询：指定字段，在指定字段中匹配单词

B、Group分组设定，使用括号指定匹配的规则，举例：

#分组设定,使用括号进行分组
GET my_index/_search?q=username:(alfred OR way)AND lee

3）search api

A、泛查询：

#泛查询
GET my_index/_search?q=alfred
{
 "profile":true    #使用profile参数，可以明确地看到ES如何执行的查询条件
}

B、指定字段查询：

a、查询字段username中包含alfred的文档：

#查询字段username中包含alfred的文档
GET my_index/_search?q=username:alfred

b、查询字段username中包含alfred或way的文档

#查询字段username中包含alfred或way的文档
GET my_index/_search?q=username:alfred way

c、查询字段username为"alfred way"的文档

#查询字段username为"alfred way"的文档
GET my_index/_search?q=username:"alfred way"

d、分组后，查询字段username中包含alfred和包含way的文档

#分组后，查询字段username中包含alfred，包含way的文档
GET my_index/_search?q=username:(alfred way)

这个和b的结果一样，但是区别在于使用分组之后，不进行泛查询。

4）布尔操作符

A、AND(&&)、OR(||)、NOT(!)，举例：

#查询索引my_index中username包含alfred但是不包含way的文档
GET my_index/_search?q=username:(alfred NOT way)

B、+对应must，-对应must_not，举例：

#查询索引my_index中一定包含lee，一定不含alfred，可能有way的文档
GET my_index/_search?q=username:(way +lee -alfred)
#或写成
GET my_index/_search?q=username:((lee && !alfred) || (way && lee && !alfred))

但是要注意一点：

在url中，+(加号)会被解析成空格，所以要使用encode后的结果，即：%2B，所以正确的查询语句应该为：

#查询索引my_index中一定包含lee，一定不包含alfred，可能包含way的文档
GET my_index/_search?q=username:(way %2Blee -alfred)

5）范围查询（支持数值和日期）

A、区间写法：闭区间使用[ ]，开区间使用{ }

a、age:[1 TO 10] 1 <= age <= 10

b、age:[1 TO 10} 1 <= age < 10

c、age:[1 TO ] age >= 1

d、age:[* TO 10] age <= 10

B、算数符号写法：

a、age:>= 1

b、age:(>=1 && <= 10) / age:(+ >= 1 + <= 10)

举例：

#查询索引my_index中username字段包含alfred或年龄大于20的文档
GET my_index/_search?q=username:alfred age>20

#查询索引my_index中username字段包含alfred且年龄大于20的文档
GET my_index/_search?q=username:alfred AND age>20

C、还可以对日期进行范围查询，注意：年/月是从1月1号/1号开始算的：

#查询索引my_index中birth字段在1985和1990之间的文档
GET my_index/_search?q=birth:(>1985 AND < 1990)

6）通配符查询

?代表一个字符，*代表0个或多个字符，如：

name:a?lfred / name:a*d / name:alfred*

注意：通配符匹配的执行效率较低，且占用内存较多，不建议使用，如果没有特殊要求，也不要将?或者*放在最前面，因为意味着要匹配所有文档，可能会造成OOM。

7）此外，还支持正则表达式/模糊匹配/近似度查询等

A、正则表达式：举例：/[a]?l.*/

B、模糊匹配：fuzzy query。举例：

#模糊匹配。匹配与alfred差一个字符的词，比如：alfreds、alfret等
GET my_index/_search?q=username:alfred~1

C、近似度查询：proximity search。举例：

#近似度查询，查询字段username和"alfred way"差n个单词的文档
GET my_index/_search?q=username:"alfred way" ~5

使用场景常见于用户输入词的纠错中。

2、Request Body Search

ES自带的完备查询语句，将查询语句通过http request body发送到ES，主要参数有：

①query ===> 符合Query DSL语法的查询条件

②from，size

③timeout

④sort

Query DSL语法：

基于JSON定义的查询语言，主要包含两个类型：

1）字段类查询————如：term，match，range等。只针对一个字段进行查询

A、全文匹配

针对text类型的字段进行全文检索，会对查询语句进行“先分词再查询”处理，如：match、match_phrase等

a、match query

①对字段进行全文检索(最基本和最常用的查询类型)，举例：

#match query
GET my_index/_search
{
  "query":{  
   "match":{    #关键词
    "username":"alfred way"    #字段名和查询语句
   }
  }
}

从结果，可以返回匹配文件总数，返回文档列表，_score相关性得分等。

一般的执行流程为：

1.对查询语句分词==>2.根据字段的倒排索引列表，进行匹配算分==>3.汇总得分==>4.根据得分排序，返回匹配文档

②使用operator参数，可以控制单词间关系，有and / or：

#使用operator参数控制单词间关系
GET my_index/_search
{
 "query":{
  "match":{
   "username":"alfred way",
   "operator":"and"    #and，同时包含alfred和way
  }
 }
}

③使用minimum_should_match参数控制需匹配的单词数

#使用minimum_should_match参数控制需匹配的单词数
GET my_index/_search
{
 "query":{
  "match":{
   "username":"alfred way",
   "minimum_should_match":"2"
  }
 }
}

b、相关性算分，其本质就是一个排序问题

计算文档与待查询语句之间的相关度，一般有四个重要概念：

a、Term Frequency 词频(正相关)

b、Document Frequency 文档频率(负相关)

c、Inverse Term Frequency 逆文本频率(正相关)

d、Field-length Norm 文档长度(负相关)

目前ES有两个相关性算分的模型：

①TF/IDF模型。经典模型。

在使用kibana进行查询时，使用explain参数，可以查看具体的计算方法。

#使用explain参数，可以查看具体的相关性的得分是如何计算的
GET my_index/_search
{
 "explain":true,    #设置为true
 "query":{
  "match":{
   "username":"alfred"
  }
 }
}

注意：ES计算相关性得分是根据shard进行的，即分片的分数计算相互独立，所以在使用的时候要注意分片数，可以通过设定分片数为1来避免这个问题，主要是为了观察，不代表之后所有的分片全都设为1。一般放在创建索引后，未加数据之前。

#设定shards数量为1
PUT my_index
{
 "settings":{
  "number_of_shards":"1"
 }
}

②BM25模型。5.x版本后的默认模型，是对TF/IDF的优化模型。best match，25指：迭代了25次才计算。

BM25的使用，降低了TF/IDF中因为TF过大导致的负面影响，在BM25中，一个单词的TF一直增长，到一定程度就趋于0变化。

c、match phrase query

对字段做全文检索，有顺序要求。

#使用match——phrase查询词语
GET my_index/_search
{
 "query":{
  "match_phrase":{    #关键词
   "job":"java engineer"
  }
 }
}

通过使用slop参数，可以控制单词间间隔：

#使用slop参数，控制词语中的单词间隔
GET my_index/_search
{
 "query":{
  "match_phrase":{
   "job":{
    "query":"java engineer",
    "slop":"1"    #关键词，设定单词间隔
   }
  }
 }
}

d、query string query

类似于URI Search中的q参数查询，举例：

#使用query_string查询
GET my_index/_search
{
 "query":{
  "query_string":{
   "default_field":"username",
   "query":{alfred AND way"
  }
 }
}
#或
GET my_index/_search
{
 "query":{
  "query_string":{
   "fileds":["username","job"],
   "query":"alfred OR (java AND ruby)"
  }
 }
}

e、simple query string query

类似于query string，但会忽略错误的查询语法，且仅支持部分查询语句。使用+，|，-分别代替AND，OR，NOT。

举例：

#使用simple query string query
GET my_index/_search
{
 "query":{
  "simple_query_string":{
   "fields":[username],
   "query":"alfred +way"    #等价于 "query":"alfred AND way"
  }
 }
}

B、单词匹配

a、term/terms query

将待查询语句作为整个单词进行查询，不做分词处理，举例：

#使用term进行单查询
GET my_index/_search
{
 "query":{
  "term":{
   "username":"alfred"
  }
 }
}
#使用terms进行多查询
GET my_index/_search
{
 "query":{
  "terms":{
   "username":["alfred","way"]
  }
 }
}

此时如果直接使用alfred way作为username查询条件，是不会返回任何文档的。因为在username的倒排索引列表中，存在"alfred"和"way"的索引，但是不存在"alfred way"的索引。

b、range query

范围查询，主要针对数值类型和日期类型。

gt: greater than 大于

gte: greate than or equal to 大于等于

lt: less than 小于

lte: less than or equal to 小于等于

①对数值的查询

#range query对数值的查询
GET my_index/_search
{
 "query":{
  "range":{
   "age":{
    "gte":10,
    "lte":20
   }
  }
 }
}

②对日期的查询

#range query对日期的查询
GET my_index/_search
{
 "query":{
  "range":{
   "birth":{
    "lte":"1988-01-01"   #或者使用  "lte":"now-30y",这种Date Math类型
   }
  }
 }
}

Date Math类型：针对日期提供的一种更友好的计算方式。

当前时间用now代替，具体时间的引用，需要使用||间隔。年、月、日、时、分、秒跟date一致：y、M、w、d、h、m、s。举例：

#假设当前时间为2018-01-02 12:00:00
now+1h   =>   2018-01-02 13:00:00
now-1h   =>   2018-01-02 11:00:00
now-1h/d =>   2018-01-02 00:00:00
2016-01-01||+1M/d  => 2016-02-01 00:00:00

2）复合查询————如：bool查询等。包含一个/多个字段类查询/符合查询语句

A、constant_score query

将内部的查询结果文档得分全部设定为1或boost的值。返回的相关性得分全部为1或boost

#使用constant_score query
GET my_index/_Search
{
 "query":{
  "constant_score":{    #关键词
   "match":{
    "username":"alfred"
   }
  }
 }
}

B、bool query

由一个/多个布尔子句组成，主要包含以下四个：

a、filter 只过滤符合条件的文档，不计算相关性得分，返回的相关性得分全部为0；

ES会对filter进行智能缓存，因此执行效率较高，在做简单匹配查询且不考虑得分的时候没推荐使用filter代替query

#使用filter查询
GET my_index/_search
{
 "query":{
  "bool":{    #关键词
   "filter":[
    "term":{
     "username":"alfred"
    }
   ]
  }
 }
}

b、must 文档必须符合must中的所有条件，影响相关性得分；

#使用must进行查询
GET my_index/_search
{
 "query":{
  "bool":{
   "must":[    
    {
     "match":{
      "username":"alfred"
     }
    },
    {
     "match":{
      "job":"specialist"
     }
    }
   ]
  }
 }
}

c、must_not 文档必须排除must_not中的所有条件；

#使用must_not进行查询
GET my_index/_search
{
 "query":{
  "bool":{
   "must":[
   {
    "match":{
     "job":"java"
    }
   }
   ],
   "must_not":[
   {
    "match":{
     "job":"ruby"
    }
   }
   ]
  }
 }
}

d、should 文档可以符合should中的条件，影响相关性得分，分为两种情况：

同时配合minimum_should_match控制满足调价你的个数/百分比。

①bool查询中只有should，不包含must的情况

#bool查询中只有should的情况
GET my_index/_search
{
 "query":{
  "bool":{
   "should":[
    {
     "term":{"job":"java"}    #条件1
    },
    {
     "term":{"job":"ruby"}    #条件3
    }
    {
     "term":{"job":"specialist"}    #条件3
    }
   ],
   "minimum_should_match":2    #至少需要满足两个条件
  }
 }
}

②bool查询中既有should，又包含must的情况，文档不必满足should中的条件，但是如果满足的话则会增加相关性得分。

#bool查询中同时包含should和must
GET my_index/_search
{
 "query":{
  "bool":{
   "should":[    #同时包含should
   {
    "term":{"job":"ruby"}
   }
   ],
   "must":[    #同时包含must
   {
    "term":{"usernmae":"alfred"}
   }
   ]
  }
 }
}

当一个查询语句位于query或filter上下文的时候，ES的执行结果也不同。

query	查找和查询语句最匹配的文档，并对所有文档计算相关性得分	query bool中的：must/should
filter	查找和查询语句最匹配的文档	bool中的：filter/must_not constant_score中的：filter

#query和filter上下文
GET my_index/_search
{
 "query":{
  "bool":{
   "must":[    #query上下文
   {
    "term":{"title":"Search"}
   },
   {
    "term":{"content":"ElasticSearch"}
   }
   ],
   "filter":[    #filter上下文
   {
    "term":{"status":"published"}
   },
   {
    "range":{
     "publish_date":{
      "gte":"2015-01-01"
     }
    }
   }
   ]
  }
 }
}

D、count API

获取符合条件的文档书，使用endpoint：_count。

#使用_count获取符合条件的文档数
GET my_index/_count    #关键词
{
 "query":{
  "match":{
   "username":"alfred"
  }
 }
}

E、Source Filtering

过滤返回结果中的_source中的字段，主要由以下两种方式：

a、GET my_index/_search?_source=username #url参数

b、使用Request Body Search：

#不返回_source
GET my_index/_search
{
 "_source":false
}
#返回_source部分字段
GET my_index/_search
{
 "_source":["username","age"]
}
#通配符匹配返回_source部分字段
GET my_index/_search
{
 "_source":{
  "includes":"*I*",
  "encludes":"birth"
 }
}

Hiwes

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
《ElasticStack从入门到实践》学习笔记4

四、ElasticSearch的Search API 0、在ES中，为了实现对存储的数据进行查询分析，使用endpoint：_search。可以实现对索引的不同查询，如： A、实现对所有索引的泛查询：GET /_search B、实现对一个索引的单独查询：GET /my_index/_search C、实现对多个索...
复制链接

扫一扫