ELK之ElasticSearch

GET /school/student/_search?pretty
{
    "query": {
         "match": {

"about": "travel"

~~"sex":"girl"~~

}
     }
}

注意：一个match下，不能出现多个字段值。如上文中match花括号里还有字段如："sex":"girl"，则会报[match] query doesn't support multiple fields的错误，必须使用bool复合查询。

3.3.3、bool的复合查询

当出现多个查询语句组合的时候，可以用bool来包含。bool合并聚包含：must，must_not或者should， should表示or的意思.

GET /school/student/_search?pretty
{
"query": {
   "bool": {
      "must": { "match": {"about": "travel"}},
      "must_not": {"match": {"sex": "boy"}}
     }
  }
}

3.3.4、bool的复合查询中的should

should表示可有可无的（如果should匹配到了就展示，否则就不展示）。

GET /school/student/_search?pretty
{
"query": {
   "bool": {
      "must": { "match": {"about": "travel"}},
      "should": {"match": {"sex": "boy"}}
     }
  }
}

3.3.5、term匹配

使用term进行精确匹配（比如数字，日期，布尔值或 not_analyzed的字符串(未经分析的文本数据类型)）。

GET /school/student/_search?pretty
{
"query": {
   "bool": {
      "must": { "term": {"about": "travel"}},
      "should": {"term": {"sex": "boy"}}
     }}
}

3.3.6、使用terms匹配多个值

term主要是用于精确的过滤比如说：”我爱你”；

在match下面匹配可以为包含：我、爱、你、我爱等等的解析器；

在term语法下面就精准匹配到：”我爱你”。

GET /school/student/_search?pretty
{
"query": {
   "bool": {
      "must": { "terms": {"about": ["travel","history"]}}
     }
  }
}

3.3.7、Range过滤

Range过滤允许我们按照指定的范围查找一些数据；操作范围：gt表示大于，gae表示大于等于,lt表示小于，lte表示小于等于

GET /school/student/_search?pretty
{
"query": {
   "range": {
    "age": {"gt":20,"lte":25}
         }
      }
}

3.3.8、exists和 missing过滤

exists和missing过滤可以找到文档中是否包含某个字段或者是没有某个字段；

GET /school/student/_search?pretty
{
"query": {
   "exists": {
    "field": "age"
         }
      }
}

3.3.9、bool的多条件过滤

用bool也可以像之前match一样来过滤多行条件：

must ：多个查询条件的完全匹配,相当于 and 。
must_not ：多个查询条件的相反匹配，相当于 not 。
should：至少有一个查询条件匹配, 相当于 or。

GET /school/student/_search?pretty
{
  "query": {
    "bool": {
      "must": [
        {"term": {
          "about": {
            "value": "travel"
          }
        }},

{"range": {
          "age": {
            "gte": 20,
            "lte": 30
          }
        }}
      ]
    }
  }
}

3.3.10、查询与过滤条件合并

通常复杂的查询语句，用filter过滤语句可以来实现实现缓存；

GET /school/student/_search?pretty
{
  "query": {
   "bool": {
     "must": {"match": {"about": "travel"}},
     "filter": [{"term":{"age": 20}}]
     }
  }
}

3.4、定义字段类型mappings

在es当中，每个字段都会有默认的类型，根据我们第一次插入数据进去，es会自动帮我们推断字段的类型，当然我们也可以通过设置mappings来提前自定义我们字段的类型。

3.4.1、使用mappings来提前定义字段类型

使用mapping的映射管理，提前指定字段的类型，防止后续的程序问题；

（1）添加索引：school，文档类型类logs，索引字段为message ，字段的类型为text；

PUT school
{
  "mappings": {
    "logs" : {
      "properties": {"messages" : {"type": "text"}}
    }
  }

}

GET /school/_mapping/logs

（2）继续添加字段

POST /school/_mapping/logs
{
"properties": {"number" : {"type": "text"}}
}

GET /school/_mapping/logs

（3）获取映射字段：

GET /school/_mapping/logs/field/number

（4）管理索引库分片数以及副本数settings：

settings就是用来修改索引分片和副本数的；通过setting来添加副本数。

PUT document
{
  "mappings": {
    "article" : {
      "properties":
      {
        "title" : {"type": "text"} ,
        "author" : {"type": "text"} ,
        "titleScore" : {"type": "double"}

      }
    }
  }
}

GET /document/_settings

把副本数改成2

PUT /document/_settings
{
"number_of_replicas": 2 （副本）
}

副本可以改，分片不能改

PUT /document/_settings
{
"number_of_shards": 3 （分片）
}

3.5、分页解决方案

3.5.1、size+from浅分页

按照一般的查询流程来说，如果我想查询前10条数据：

（1）客户端请求发给某个节点；
（2）节点转发给各个分片，查询每个分片上的前10条；
（3）结果返回给节点，整合数据，提取前10条；
（4）返回给请求客户端。

from定义了目标数据的偏移值，size定义当前返回的事件数目。

GET /us/_search?pretty
{
"from" : 0 , "size" : 5
}

GET /us/_search?pretty
{
"from" : 5 , "size" : 5
}

浅分页只适合少量数据，因为随from增大，查询的时间就会越大，而且数据量越大，查询的效率指数下降；且Elasticsearch响应请求时必须确定docs的顺序，排列响应结果。

优点：from+size在数据量不大的情况下，效率比较高。

缺点：在数据量非常大的情况下，from+size分页会把全部记录加载到内存中，这样做不但运行速递特别慢，而且容易让es出现内存不足而挂掉。

3.5.2、scroll深分页

scroll维护了当前索引段的一份快照信息--缓存（这个快照信息是执行这个scroll查询时的快照）。

scroll 分为初始化和遍历两步：

1、初始化时将所有符合搜索条件的搜索结果缓存起来，可以想象成快照；
2、遍历时，从这个快照里取数据；

初始化：初始化的时候就像是普通的search一样

GET us/_search?scroll=3m

{

"query": {"match_all": {}},

"size": 3

}

scroll=3m代表当前查询的数据缓存3分钟

Size：3 代表当前查询3条数据

遍历：在遍历时候，拿到上一次遍历中的scrollid，然后带scroll参数，重复上一次的遍历步骤，直到返回的数据为空，就表示遍历完成。

GET /_search/scroll
{
"scroll" : "1m",
"scroll_id" : "DnF1ZXJ5VGhlbkZldGNoBQAAAAAAAAPXFk0xN1BmSnlVUldhYThEdWVzZ19xbkEAAAAAAAAAIxZuQWVJU0VSZ1JzcVZtMGVYZ3RDaFlBAAAAAAAAA9oWTVZOdHJ2cXBSOU9wN3c1dk5vcWd4QQAAAAAAAAPYFk0xN1BmSnlVUldhYThEdWVzZ19xbkEAAAAAAAAAIhZuQWVJU0VSZ1JzcVZtMGVYZ3RDaFlB"
}

【注意】：每次都要传参数scroll，刷新搜索结果的缓存时间，另外不需要指定index和type（不要把缓存的时时间设置太长，占用内存）。

3.5.3、浅分页与深分页的对比

浅分页，每次查询都会去索引库（本地文件夹）中查询pageNum*page条数据，然后截取掉前面的数据，留下最后的数据。这样的操作在每个分片上都会执行，最后会将多个分片的数据合并到一起，再次排序，截取需要的。

深分页，可以一次性将所有满足查询条件的数据，都放到内存中。分页的时候，在内存中查询。相对浅分页，就可以避免多次读取磁盘。

3.6、ES的中文分词器IK

第一步：创建索引库并配置IK分词器

在创建索引库的时候，我们指定分词方式为ik_max_word，会对我们的中文进行最细粒度的切分；

PUT /iktest?pretty
{
    "settings" : {
        "analysis" : {
            "analyzer" : {
                "ik" : {
                    "tokenizer" : "ik_max_word"
                }
            }
        }
    },
    "mappings" : {
        "article" : {
            "dynamic" : true,
            "properties" : {
                "subject" : {
                    "type" : "text",
                    "analyzer" : "ik_max_word"
                }
            }
        }
    }
}

第二步：查看分词效果

在kibana当中执行以下查询，并验证分词效果：

GET _analyze?pretty
  {
    "analyzer": "ik_max_word",
    "text": "特娘补是美国总统"
  }

第三步：自定义配置热词更新

（1）查看分词效果

GET _analyze?pretty

  {

    "analyzer": "ik_max_word",

    "text": "小老弟，你怎么肥事，老铁你来了！！！"

  }

随着时间的推移和发展，有些网络热词我们并不能进行分词，因为网络热词并没有定义在我们的词库里面，这就需要我们经常能够实时的更新我们的网络热词，我们可以通过tomcat来实现远程词库来解决这个问题。

（2）在节点3上配置Tomcat

tar -zxf apache-tomcat-8.5.34.tar.gz -C /install/

（3）tomcat当中添加配置hot.dic

cd /install/apache-tomcat-8.5.34/webapps/ROOT

vi hot.dic，添加如下内容：

老铁

肥事

（4）启动tomcat

cd /install/apache-tomcat-8.5.34/

bin/startup.sh

（5）页面查看

http://node03:8080/hot.dic

（6）修改配置文件（每台机器都要改）

cd /kkb/install/elasticsearch-6.7.0/plugins/analysis-ik/config

vim IKAnalyzer.cfg.xml 修改如下内容：

<?xml version="1.0" encoding="UTF-8"?>

<!DOCTYPE properties SYSTEM "http://java.sun.com/dtd/properties.dtd">

<properties>

        <comment>IK Analyzer 扩展配置</comment>

        

        <entry key="ext_dict"></entry>

         

        <entry key="ext_stopwords"></entry>

        

        <entry key="remote_ext_dict">http://node03:8080/hot.dic</entry>

        

        

</properties>

（7）重启es，再再kibana中执行第一步的分词效果，注意比较两者的不同

fengge18306

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
ELK之ElasticSearch

1、ELK日志协议栈ELK是三个软件产品的首字母缩写，Elasticsearch，Logstash 和 Kibana。Elasticsearch是个开源分布式搜索引擎，它的特点有：分布式，零配置，自动发现，索引自动分片，索引副本机制，restful风格接口，多数据源，自动搜索负载等。Logstash是一个完全开源的工具，他可以对你的日志进行收集、过滤，并将其存储供以后使用（如，搜索）。...
复制链接

扫一扫