elasticsearch 查询语句

海啦啦喽

已于 2022-04-12 10:41:08 修改

阅读量957

点赞数

分类专栏：笔记文章标签： elasticsearch

于 2021-01-06 12:52:47 首次发布

本文链接：https://blog.csdn.net/weixin_43251291/article/details/112261346

版权

笔记专栏收录该内容

8 篇文章 0 订阅

订阅专栏

ES查询
分词
- 标准分词 standard
- english分词
field类型
Query DSL简单实验
玩转TMDB高级查询
优秀的搜索引擎必备
logstash-input-jdbc索引构建
- 使用logstash-input-jdbc 同步建立索引

在改变了索引（文档）的属性时，原来属性为text，后来改为keyword。所以必须先删除干净索引，重新插入数据，再模糊查询。部分原因就是没有删除索引导致的。可以尝试重新生成索引才可以做到模糊查询的效果。

ES查询

链接: 社区链接 https://elasticsearch.cn/
链接: es官方文档.

创建一个索引

PUT /test
{
   "settings" : {
      "number_of_shards" : 1,
      "number_of_replicas" : 1
   }
}

分布式节点建设
更新其replicas状态，但是不能更新shards状态

PUT /test/_settings
{
   "settings" : {
      "number_of_replicas" : 0
   }
}

创建索引，指定id建立索引

PUT /employee/_doc/1
{
    "name": "凯杰", 
    "age": 30
}

指定id全量修改索引

PUT /employee/_doc/1
{
    "name": "凯dsfsf32杰", 
    "age"
}

指定id部分字断修改

POST employee/_update/1
{
    "doc" : {
        "name" : "new_name"
    }
}

指定_create防止重复创建

POST /employee/_create/1/
{
    "name": "凯1213132杰", 
    "age": 30
}

使用搜索全部

GET /employee/_search

获取指定id

GET /employee/_doc/1

主键查询

GET /employee/_doc/1

不指定id建立索引

POST /employee/_doc/
{
    "name": "dsfsfsf", 
    "age": 30
}

删除文档

delete /employee/_doc/1

删除索引

DELETE /employee

结构化创建

PUT /employee/
{
    "settings" : {
      "number_of_shards" : 1,
      "number_of_replicas" : 1
   },
    "mappings" : {
            "properties" : {
                "name" : { "type" : "text" },
                "age" : { "type" : "integer" }
            }

    }
}

查询所有

GET /employee/_search
{
 "query":{
   "match_all": {}
 }
}

分页查询

GET /employee/_search
{
  "query":{
    "match_all": {}
  },
  "from":1,
  "size":1
}

复杂查询

带条件

GET /employee/_search
{
  "query":{
    "match": {"name":"ES"}
  }
}

带排序

GET /employee/_search
{
  "query":{
    "match": {"name":"ES"}
  },
  "sort":[
  	{"age":{"order":"desc"}}
  ]
}

带聚合

GET /employee/_search
{
  "query":{
    "match": {"name":"ES"}
  },
  "sort":[
    {"age":{"order":"desc"}}
  ],
  "aggs":{
    "group_by_age":{
      "terms":{
        "field":"age"
      }
    }
  }
}

分词

标准分词 standard

analyze分析过程：字符过滤，字符处理（分词），分词过滤
字符过滤 &过滤掉
字符处理用标准分词器，以空格和标点符号分割
分词过滤变小写

先建立索引

PUT /employee/_doc/1
{
    "name": "Eating an apple a day & keeps the doctor away", 
    "age": 30
}
然后搜索

GET /employee/_search
{
  "query":{
    "match": {"name":"eat"}
  }
}
没搜到后使用analyze api查看分析处理结果，可以看到没有分出eat，所以搜不到，改成用english分词器做

GET /employee/_analyze
{
  "field":"name",
  "text":"Eating an apple a day & keeps the doctor away"
}

english分词

英文分析器的步骤
1.字符过滤 &过滤掉
2.字符处理以空格和标点符号分割
3.分词过滤变小写，去掉停用词（the），同义词，词干转化器

重新创建索引

PUT /employee
{
    "settings" : {
      "number_of_shards" : 1,
      "number_of_replicas" : 1
   },
    "mappings" : {
            "properties" : {
                "name" : { "type" : "text","analyzer": "english"},
                "age" : {"type":"integer"}
            }
    }
}
在用analyze api，可以看到eat

GET /employee/_analyze
{
  "field":"name",
  "text":"Eating an apple a day & keeps the doctor away"
}

field类型

text: 被分析索引的字符串类型
keyword: 不能被分析只能被精确匹配的字符串类型
date: 日期时间类型可以配合format一起使用 {“type”:“date”,“format”:“yyyy-MM-dd”}
数字类型: long,integer,short，double等
boolean类型: true，false
array类型：[“one”,“two”] 等
object类型: json嵌套{“property1”:“value1”,“property2”:“value2”}
ip: ip类型
geo_point: 地理位置类型

地址定义
{
  "mappings": {
    "_doc": {
      "properties": {
        "location": {
          "type": "geo_point"
        }
      }
    }
  }
}
建立索引的方式
"location": { 
    "lat": 41.12,
    "lon": -71.34
}

PUT /movie
{
   "settings" : {
      "number_of_shards" : 1,
      "number_of_replicas" : 1
   },
   "mappings": {
     "properties": {
       "title":{"type":"text","analyzer": "english"},
       "tagline":{"type":"text","analyzer": "english"},
       "release_date":{"type":"date",        "format": "8yyyy/MM/dd||yyyy/M/dd||yyyy/MM/d||yyyy/M/d"},
       "popularity":{"type":"double"},
       "cast":{
         "type":"object",
         "properties":{
           "character":{"type":"text","analyzer":"standard"},
           "name":{"type":"text","analyzer":"standard"}
         }
       },
       "overview":{"type":"text","analyzer": "english"}
     }
   }
}

Query DSL简单实验

1.match查询，按照字段上定义的分词分析后去索引内查询

GET /movie/_search
{
  "query":{
    "match":{"title":"steve"}
  }
}

2.term查询，不进行词的分析，直接去索引查询，及搜索关键词和索引内词的精确匹配

GET /movie/_search
{
  "query":{
    "match":{"title":"steve zissou"}
  }
}
GET /movie/_search
{
  "query":{
    "term":{"title":"steve zissou"}
  }
}

3.match分词后的and和or

使用的是or

GET /movie/_search
{
  "query":{
    "match":{"title":"basketball with cartoom aliens"},
  }
}

使用and

GET /movie/_search
{
  "query":{
    "match": {
      "title": {
        "query": "basketball with cartoom aliens",
        "operator": "and" 
      }
    }
  } 
}

4.最小词项匹配

GET /movie/_search
{
  "query":{
    "match": {
      "title": {
        "query": "basketball with cartoom aliens",
        "operator": "or" ,
        "minimum_should_match": 2
      }
    }
  }
}

5.短语查询

GET /movie/_search
{
  "query":{
    "match_phrase":{"title":"steve zissou"}
  }
}
短语前缀查询

GET /movie/_search
{
  "query":{
    "match_phrase_prefix":{"title":"steve zis"}
  }
}

6.多字段查询

GET /movie/_search
{
  "query":{
    "multi_match":{
      "query":"basketball with cartoom aliens",
      "field":["title","overview"]
    }
  }
}

7.wildcard模糊查询，字段类型，定义为keyword，不进行分词

{
  "query": {
    "bool": {
       "must": [
         {
           "wildcard": {
             "country": {
               "value": "孟*"
             }
           }
         }
       ]
    }
  }
}
fuzzy模糊查询，可以更加模糊的查询，比如查询game，可以用geme查询

场景：在公司日志系统中使用es进行日志的保存和查询，由于需要像mysql中like关键字一样查询日志的某些字段,但是es中的类似like的关键字消耗性能会比较大影响其他程序的使用（架构给我说的），所以不能使用，于是有了这个代替like的方案，性能上不会消耗很多，依然使用ik分词，通过调整最小匹配度来满足功能的实现，下面是es的sql写法

{
  "match": {
    "字段名": {
      "query": "凯美瑞进口",
      "operator": "AND",
      "minimum_should_match": "100%"
    }
  }
}

外面两层bool，和must省去了。这样不能百分百模仿出like，但是也基本满足需求了，进口，可以收到，凯美瑞可以搜到，记住如果用了ik分词term就会失效

玩转TMDB高级查询

再次解释评分规则(tf/idf)*tfnorm：
tf：词频这个document文档包含了多少个这个词，包含越多表明越相关
idf：逆文档频率包含该词的文档总数目
tfnorm: 根据field长度做归一化，文档内出现频率越高，field越短越相关

操作不管是字符与还是或，按照逻辑关系命中后相加得分

GET /movie/_search
{
  "explain": true, 
  "query":{
    "match":{"title":"steve"}
  }
}

查看数值，tfidf多少分，tfnorm归一化后多少分

多字段查询索引内有query分词后的结果，因为title比overview命中更重要，因此需要加权重

GET /movie/_search
{
  "query":{
    "multi_match":{
      "query":"basketball with cartoom aliens",
      "fields":["title^10","overview"],
      "tie_break":0.3
    }
  }
}

8.Bool查询

must：必须都是true
must not：必须都是false
should：其中有一个为true即可，但true的越多得分越高

GET /movie/_search
{
  "query":{
    "bool": { 
      "should": [
        { "match": { "title":"basketball with cartoom aliens"}}, 
        { "match": { "overview":"basketball with cartoom aliens"}}  
      ]
    }
  }
}

9.不同的multi_query的type和multi_match得分不一样

因为multi_match有很多种type
best_fields:默认，取得分最高的作为对应的分数，最匹配模式,等同于dismax模式

GET /movie/_search
{
  "query":{
    "dis_max": { 
      "queries": [
        { "match": { "title":"basketball with cartoom aliens"}}, 
        { "match": { "overview":"basketball with cartoom aliens"}}  
      ]
    }
  }
}

然后使用explan看下 ((title:steve title:job) | (overview:steve overview:job))，打分规则

GET /movie/_validate/query?explain
{
  //"explain": true, 
  "query":{
    "multi_match":{
      "query":"steve job",
      "fields":["title","overview"],
      "operator": "or",
      "type":"best_fields"
    }
  }
}

以字段为单位分别计算分词的分数，然后取最好的一个,适用于最优字段匹配。

将其他因素以0.3的倍数考虑进去

GET /movie/_search
{
  "query":{
    "dis_max": { 
      "queries": [
        { "match": { "title":"basketball with cartoom aliens"}}, 
        { "match": { "overview":"basketball with cartoom aliens"}}  
      ],
      "tie_breaker": 0.3
    }
  }
}

most_fields:取命中的分值相加作为分数，同should match模式，加权共同影响模式

然后使用explain看下 ((title:steve title:job) | (overview:steve overview:job))~1.0，打分规则

GET /movie/_validate/query?explain
{
  //"explain": true, 
  "query":{
    "multi_match":{
      "query":"steve job",
      "fields":["title","overview"],
      "operator": "or",
      "type":"most_fields"
    }
  }
}

以字段为单位分别计算分词的分数，然后加在一起，适用于都有影响的匹配

cross_fields:以分词为单位计算栏位总分
然后使用explain看下 blended(terms:[title:steve, overview:steve]) blended(terms:[title:job, overview:job])，打分规则

GET /movie/_validate/query?explain
{
  //"explain": true, 
  "query":{
    "multi_match":{
      "query":"steve job",
      "fields":["title","overview"],
      "operator": "or",
      "type":"most_fields"
    }
  }
}

以词为单位，分别用词去不同的字段内取内容，拿高的分数后与其他词的分数相加，适用于词导向的匹配

GET /forum/article/_search
{
  "query": {
    "multi_match": {
      "query": "Peter Smith",
      "type": "cross_fields", 
      "operator": "or",
      "fields": ["author_first_name", "author_last_name"]
    }
  }
}
//要求Peter必须在author_first_name或author_last_name中出现
//要求Smith必须在author_first_name或author_last_name中出现

//原来most_fiels，可能像Smith //Williams也可能会出现，因为most_fields要求只是任何一个field匹配了就可以，匹配的field越多，分数越高

GET /movie/_search
{
  "explain": true, 
  "query":{
    "multi_match":{
      "query":"steve job",
      "fields":["title","overview"],
      "operator": "or",
      "type":"cross_fields"
    }
  }
}
看一下不同的评分规则

10.query string

方便的利用AND(+) OR(|) NOT(-)

GET /movie/_search
{
  "query":{
    "query_string":{
      "fields":["title"],
      "query":"steve AND jobs"
      
    }
  }
}

11.过滤查询

filter过滤查询
单条件过滤

GET /movie/_search
{
  "query":{
    "bool":{
      "filter":{
          "term":{"title":"steve"}
      }
    }
  }
}

多条件过滤

GET /movie/_search
{
  "query":{
    "bool":{
      "filter":[
        {"term":{"title":"steve"}},
        {"term":{"cast.name":"gaspard"}},
        {"range": { "release_date": { "lte": "2015/01/01" }}},
        {"range": { "popularity": { "gte": "25" }}}
        ]
    }
  },
  "sort":[
    {"popularity":{"order":"desc"}}
  ]
}

带match打分的的filter

GET /movie/_search
{
  "query":{
    "bool":{
      "must": [
        { "match": { "title":   "Search"        }}, 
        { "match": { "tagline": "Elasticsearch" }}  
      ],
      "filter":[
        {"term":{"title":"steve"}},
        {"term":{"cast.name":"gaspard"}},
        {"range": { "release_date": { "lte": "2015/01/01" }}},
        {"range": { "popularity": { "gte": "25" }}}
        ]
    }
  }
}

返回0结果

GET /movie/_search
{
  "query":{
    "bool":{
      "should": [
        { "match": { "title":   "Search"        }}, 
        { "match": { "tagline": "Elasticsearch" }}  
      ],
      "filter":[
        {"term":{"title":"steve"}},
        {"term":{"cast.name":"gaspard"}},
        {"range": { "release_date": { "lte": "2015/01/01" }}},
        {"range": { "popularity": { "gte": "25" }}}
        ]
    }
  }
}

有结果，但是返回score为0，因为bool中若有filter的话，即便should都不满足，只是返回为0分而已
修改为

GET /movie/_search
{
  "query":{
    "bool":{
      "should": [
        { "match": { "title":   "life"        }}, 
        { "match": { "tagline": "Elasticsearch" }}  
      ],
      "filter":[
        {"term":{"title":"steve"}},
        {"term":{"cast.name":"gaspard"}},
        {"range": { "release_date": { "lte": "2015/01/01" }}},
        {"range": { "popularity": { "gte": "25" }}}
        ]
    }
  }
}
可以看到分数

优秀的搜索引擎必备

查全率：正确的结果有n个，查询出来正确的有m 则 m/n
查准率：查出的n个文档有m个正确，则m/n
两者都需要提高，但一般不可兼得，可以通过调整排序位置，将正确的结果排在上面以提高用户体验

function score自定义打分

GET /movie/_search
{
  "query":{
    "function_score": {
      //原始查询得到oldscore
      "query": {      
        "multi_match":{
        "query":"steve job",
        "fields":["title","overview"],
        "operator": "or",
        "type":"most_fields"
      }
    },
    "functions": [
      {"field_value_factor": {
          "field": "popularity",   //对应要处理的字段
          "modifier": "log2p",    //将字段值+2后，计算对数
          "factor": 10    //字段预处理*10
        }
      }
    ], 

    "score_mode": "sum",   //不同的field value之间的得分相加
    "boost_mode": "sum"    //最后在与old value相加
  }
}
}

IK中文分词器

1.IK分词器是目前用的最广泛的中文分词器
2.elasticsearch安装ik plugin
bin/elasticsearch-plugin install https://github.com/medcl/elasticsearch-analysis-ik/releases/download/v7.3.0/elasticsearch-analysis-ik-7.3.0.zip
3个节点都安装，检查plugins目录下有对应文件夹则表示安装
3.启动es后运行命令检查
对比

标准分词

GET _analyze?pretty
{
  "analyzer": "standard",
  "text":"中华人名共和国国歌"
}

智能分词

GET _analyze?pretty
{
  "analyzer": "ik_smart",
  "text":"中华人名共和国国歌"
}

最大化分词

GET _analyze?pretty
{
  "analyzer": "ik_max_word",
  "text":"中华人名共和国国歌"
}
最佳实践：索引时使用maxword，查询时使用smartword

4.门店全量索引构建，先定义索引结构

PUT /shop?include_type_name=false
{
   "settings" : {
      "number_of_shards" : 1,
      "number_of_replicas" : 1
   },
   "mappings": {
     "properties": {
       "id":{"type":"integer"},
       "name":{"type":"text","analyzer": "ik_max_word","search_analyzer":"ik_smart"},
       "tags":{"type":"text","analyzer": "whitespace","fielddata":true},
       "location":{"type":"geo_point"},
       "remark_score":{"type":"double"},
       "price_per_man":{"type":"integer"},
       "category_id":{"type":"integer"},
       "category_name":{"type":"keyword"},
       "seller_id":{"type":"integer"},
       "seller_remark_score":{"type":"double"},
       "seller_disabled_flag":{"type":"integer"}
     }
   }
}

logstash-input-jdbc索引构建

使用logstash-input-jdbc 同步建立索引

先下载logstash
https://artifacts.elastic.co/downloads/logstash/logstash-7.3.0.zip
解压后安装logstash-input-jdbc插件
bin/logstash-plugin install logstash-input-jdbc
bin目录下新建mysql
cp mysql-connector-java-5.1.34.jar /Users/hzllb/Documents/java/logstash/logstash-7.3.0/bin/mysql/

新建索引的方式使用从mysql中查询select语句，然后通过logstash-input-jdbc的配置文件方式导入elasticsearch

首先配置jdbc.conf
vim jdbc.conf

input {
    stdin {
    }
    jdbc {
      # mysql 数据库链接,test为数据库名
      jdbc_connection_string => "jdbc:mysql://127.0.0.1:3306/dianping"
      # 用户名和密码
      jdbc_user => "root"
      jdbc_password => "root"
      # 驱动
      jdbc_driver_library => "/Users/hzllb/Documents/java/logstash/logstash-7.3.0/bin/mysql/mysql-connector-java-5.1.34.jar"
      # 驱动类名
      jdbc_driver_class => "com.mysql.jdbc.Driver"
      jdbc_paging_enabled => "true"
      jdbc_page_size => "50000"
    # 执行的sql 文件路径+名称
      statement_filepath => "/Users/hzllb/Documents/java/logstash/logstash-7.3.0/bin/mysql/jdbc.sql"
      # 设置监听间隔  各字段含义（由左至右）分、时、天、月、年，全部为*默认含义为每分钟都更新
      schedule => "* * * * *"
    }
}

output {
    elasticsearch {
      # ES的IP地址及端口
        hosts => ["localhost:9200"]
      # 索引名称
        index => "shop"
  document_type => "_doc"
      # 自增ID 需要关联的数据库中有有一个id字段，对应索引的id号
        document_id => "%{id}"
    }
    stdout {
     # JSON格式输出
        codec => json_lines
    }
}

然后编辑jdbc.sql加入全量查询的sql
vim jdbc.sql
select a.id,a.name,a.tags,concat(a.latitude,‘,’,a.longitude) as location,a.remark_score,a.price_per_man,a.category_id,b.name as category_name,a.seller_id,c.remark_score as seller_remark_score,c.disabled_flag as seller_disabled_flag from shop a inner join category b on a.category_id = b.id inner join seller c on c.id = a.seller_id
全量导入索引完成后我们尝试使用时间戳纬度做增量导入，即logstatsh-input-jdbc每隔一定时间执行某条sql，在对应sql内加入updated_at的时间范围，做增量数据捞取后更新到es中

用时间增量

input {
    stdin {
    }
    jdbc {
      #需要加入时间戳
      jdbc_default_timezone => "Asia/Shanghai"
      # mysql 数据库链接,test为数据库名
      jdbc_connection_string => "jdbc:mysql://127.0.0.1:3306/dianping"
      # 用户名和密码
      jdbc_user => "root"
      jdbc_password => "root"
      # 驱动
      jdbc_driver_library => "/Users/hzllb/Documents/java/logstash/logstash-6.8.1/bin/mysql/mysql-connector-java-5.1.34.jar"
      # 驱动类名
      jdbc_driver_class => "com.mysql.jdbc.Driver"
      jdbc_paging_enabled => "true"
      jdbc_page_size => "50000"
    # 执行的sql 文件路径+名称
      last_run_metadata_path => "/Users/hzllb/Documents/java/logstash/logstash-6.8.1/bin/mysql/last_value_meta"
      statement_filepath => "/Users/hzllb/Documents/java/logstash/logstash-6.8.1/bin/mysql/jdbc.sql"
      # 设置监听间隔  各字段含义（由左至右）分、时、天、月、年，全部为*默认含义为每分钟都更新
      schedule => "* * * * *"
    }
}

output {
    elasticsearch {
      # ES的IP地址及端口
        hosts => ["localhost:9200"]
      # 索引名称
        index => "shop"
  document_type => "_doc"
      # 自增ID 需要关联的数据库中有有一个id字段，对应索引的id号
        document_id => "%{id}"
    }
    stdout {
     # JSON格式输出
        codec => json_lines
    }
}

//增量sql为
select a.id,a.name,a.tags,concat(a.latitude,‘,’,a.longitude) as location,a.remark_score,a.price_per_man,a.category_id,b.name as category_name,a.seller_id,c.remark_score as seller_remark_score,c.disabled_flag as seller_disabled_flag from shop a inner join category b on a.category_id = b.id inner join seller c on c.id = a.seller_id where a.updated_at > :sql_last_value or b.updated_at > :sql_last_value or c.updated_at > :sql_last_value
同时需要新增一个文件用于记录当次执行的updated_at时间
/Users/hzllb/Documents/java/logstash/logstash-6.8.1/bin/mysql/last_value_meta
加入开始时间，例如2019-10-01 10:00:00