es学习

epoch      timestamp cluster       status node.total node.data shards pri relo init unassign pending_tasks max_task_wait_time active_shards_percent
1475247709 17:01:49  elasticsearch green           1         1      0   0    0    0        0             0                  -                100.0%

由以上返回结果可见：

cluster name : elasticsearch(默认的集群名称)

node number:1

node data number: 1

shards: 0 (在shards里面没有数据)

status:green

集群健康状态

green

everything is good(集群功能齐全)

yellow

所有数据都是可用的但是一些副本可能还没分配(集群功能齐全)

red

出于某种原因，某些数据不可用(集群部分功能齐全)。此时集群将继续为来自可用shards的搜索请求提供服务，但最好急躁修复，因为存在未分配的shards。

列出所有索引

GET /_cat/indices?v

创建索引

创建一个customer的索引

// 创建名未customer得索引，pretty表明如果有响应，打印标准得json
PUT /customer?pretty

index/replace documents

给customer index里面添加数据

PUT /customer/_doc/1?pretty
{
  "name": "John Doe"
}

响应结果

{
  "_index" : "customer",
  "_type" : "_doc",
  "_id" : "1",
  "_version" : 1,
  "result" : "created",
  "_shards" : {
    "total" : 2,
    "successful" : 1,
    "failed" : 0
  },
  "_seq_no" : 0,
  "_primary_term" : 1
}

其实es并不需要在文档加入index之前显示创建index。当customer index不存在的时候，会自动创建index。

查询刚刚创建的文档

GET /customer/_doc/1?pretty

返回结果

{
  "_index" : "customer",
  "_type" : "_doc",
  "_id" : "1",
  "_version" : 1,
  "_seq_no" : 25,
  "_primary_term" : 1,
  "found" : true,
  "_source" : { "name": "John Doe" }
}

由返回结果可知：

found: true，表明找到了一个_id为1 的文档数据

_source:返回该文档的json格式数据

delete index

DELETE /customer?pretty

modify data

之前已经执行过

PUT /customer/_doc/1?pretty
{
  "name": "John Doe"
}

当再次执行上述命令，使用相同的id=1，但是name改变：

PUT /customer/_doc/1?pretty
{
  "name": "Jane Doe"
}

由于是相同的id，那么最新的文档就会替换掉上次的结果。

当使用不同的id的时候，就会生成一个新的文档，并且原有的文档不会受任何影响。

PUT /customer/_doc/2?pretty
{
  "name": "Jane Doe"
}

执行以上命令会生成一个request _id为2 的文档，以前_id为1 的文档不会受到任何影响。

当在检索的时候，id部分是可选的，如果没有指定，会生成一个随机id，并且用作该文档的index id。

当没有明确指定id 的时候使用POST

POST /customer/_doc?pretty
{
  "name": "Jane Doe"
}

update documents

除了index/replace documents，也可以update documents。

当执行update的时候，会删除旧的文档，并给新的文档重新index。

将之前创建的索引customer。id=1的更新name:

POST /customer/_update/1?pretty
{
  "doc": { "name": "Jane Doe" }
}

在更新name的时候添加属性age:

POST /customer/_update/1?pretty
{
  "doc": { "name": "Jane Doe", "age": 20 }
}

update也可以执行脚本

POST /customer/_update/1?pretty
{
  "script" : "ctx._source.age += 5"
}

根据查询条件来更新

https://www.elastic.co/guide/en/elasticsearch/reference/7.1/docs-update-by-query.html

POST twitter/_update_by_query?conflicts=proceed

update documents

删除之前创建的id=2的文档

DELETE /customer/_doc/2?pretty

也可以根据查询条件来删除

https://www.elastic.co/guide/en/elasticsearch/reference/7.1/docs-delete-by-query.html

POST twitter/_delete_by_query
{
  "query": { 
    "match": {
      "message": "some message"
    }
  }
}

批量处理： _bulk

POST /customer/_bulk?pretty
{"update":{"_id":"1"}}
{"doc": { "name": "John Doe becomes Jane Doe" } }
{"delete":{"_id":"2"}}

上述命令更新_id=1的document，并且删除_id=2的document。

load simple dataset

准备数据account.json

{
    "account_number": 0,
    "balance": 16623,
    "firstname": "Bradshaw",
    "lastname": "Mckenzie",
    "age": 29,
    "gender": "F",
    "address": "244 Columbus Place",
    "employer": "Euron",
    "email": "bradshawmckenzie@euron.com",
    "city": "Hobucken",
    "state": "CO"
}

load

curl -H "Content-Type: application/json" -XPOST "localhost:9200/bank/_bulk?pretty&refresh" --data-binary "@accounts.json"

search

_search

search有两种方式

1.参数放在request uri后面

GET /bank/_search?q=*&sort=account_number:asc&pretty

q=*: 在索引中匹配所有的文档

sore=account)number:asc: 结果按照account_number升序

部分结果如下：

{
  "took" : 63,
  "timed_out" : false,
  "_shards" : {
    "total" : 5,
    "successful" : 5,
    "skipped" : 0,
    "failed" : 0
  },
  "hits" : {
    "total" : {
        "value": 1000,
        "relation": "eq"
    },
    "max_score" : null,
    "hits" : [ {
      "_index" : "bank",
      "_type" : "_doc",
      "_id" : "0",
      "sort": [0],
      "_score" : null,
      "_source" : {"account_number":0,"balance":16623,"firstname":"Bradshaw","lastname":"Mckenzie","age":29,"gender":"F","address":"244 Columbus Place","employer":"Euron","email":"bradshawmckenzie@euron.com","city":"Hobucken","state":"CO"}
    }, {
      "_index" : "bank",
      "_type" : "_doc",
      "_id" : "1",
      "sort": [1],
      "_score" : null,
      "_source" : {"account_number":1,"balance":39225,"firstname":"Amber","lastname":"Duke","age":32,"gender":"M","address":"880 Holmes Lane","employer":"Pyrami","email":"amberduke@pyrami.com","city":"Brogan","state":"IL"}
    }, ...
    ]
  }
}

took: es执行这个查询耗费的时间，单位毫秒

time_out:是否查询超时

_shards:告诉我们有多少个shards被查询，包括查询成功/失败的shards个数。

hits:查询结果

hits.total:包含了总的文档数量信息。由请求参数：track_total_hits控制，当track_total_hits=true，强制进行准确计数。

hits.total.value:总的命中的值

hits.total.relation:是否是hits.total.value的确切数量。eq:等于，gte:大于等于

hits.hits:实际查询的结果数组

hits.sort:结果的排序key，如果缺失，那就是以socre排序。

hits._score:是一个数值。是文档于指定的搜索查询匹配程度的相对独立。分数越高，文档越相关。当仅仅在filter 文档的时候才会产生_score。

2.参数在requrst body里面

GET /bank/_search
{
  "query": { "match_all": {} },
  "sort": [
    { "account_number": "asc" }
  ]
}

上述命令执行结果跟放在url后面的结果是一致的。

query dsl

dsl(domain specific language)

1.leaf query clauses

在指定的领域找指定的值。如match, term, range。这些查询可用单独存在使用。

2.compound query clauses

封装了leaf query clauses或者compound query clause

查询指定索引里的所有文档

GET /bank/_search
{
  "query": { "match_all": {} }
}

如果size没有明确指定，则默认为10

GET /bank/_search
{
  "query": { "match_all": {} },
  "size": 1
}

查询第10-19条。如果from没有指定，则默认为0。size没有指定，则默认为10.

GET /bank/_search
{
  "query": { "match_all": {} },
  "from": 10,
  "size": 10
}

将结果按照order降序

GET /bank/_search
{
  "query": { "match_all": {} },
  "sort": { "balance": { "order": "desc" } }
}

excuting search

默认情况下，查询结果是完整的返回，如果不想要整个完整的document结果，可用指定某些字段来返回。

指定返回document里面的_source里面的account_number, balance字段

GET /bank/_search
{
  "query": { "match_all": {} },
  "_source": ["account_number", "balance"]
}

匹配查询

查询account_number=20的

GET /bank/_search
{
  "query": { "match": { "account_number": 20 } }
}

查询address包含mill的结果

GET /bank/_search
{
  "query": { "match": { "address": "mill" } }
}

查询address包含mill或者lane的文档

GET /bank/_search
{
  "query": { "match": { "address": "mill lane" } }
}

查询address包含“mill lane”这个短语的文档

GET /bank/_search
{
  "query": { "match_phrase": { "address": "mill lane" } }
}

bool 查询，must, should, must_not

查询address包含mill和lane的文档

GET /bank/_search
{
  "query": {
    "bool": {
      "must": [
        { "match": { "address": "mill" } },
        { "match": { "address": "lane" } }
      ]
    }
  }
}

查询address包含nil或者lane的

GET /bank/_search
{
  "query": {
    "bool": {
      "should": [
        { "match": { "address": "mill" } },
        { "match": { "address": "lane" } }
      ]
    }
  }
}

查询address既不包含nill也不包含lane的文档

GET /bank/_search
{
  "query": {
    "bool": {
      "must_not": [
        { "match": { "address": "mill" } },
        { "match": { "address": "lane" } }
      ]
    }
  }
}

查询age=40，并且state!=id的

GET /bank/_search
{
  "query": {
    "bool": {
      "must": [
        { "match": { "age": "40" } }
      ],
      "must_not": [
        { "match": { "state": "ID" } }
      ]
    }
  }
}

executing filters

查询账户余额在20000-30000的结果

GET /bank/_search
{
  "query": {
    "bool": {
      "must": { "match_all": {} },
      "filter": {
        "range": {
          "balance": {
            "gte": 20000,
            "lte": 30000
          }
        }
      }
    }
  }
}

excuting aggregations

聚合。

提供了将数据分组和提取统计信息的功能。最简单的方式是sql的group by。

将所有账户按照state分组，返回前10条数据。

GET /bank/_search
{
  "size": 0,
  "aggs": {
    "group_by_state": {
      "terms": {
        "field": "state.keyword"
      }
    }
  }
}

上述的size=0，代表不显示查询命中结果，因为只想看到聚合结果。

返回结果

{
  "took": 29,
  "timed_out": false,
  "_shards": {
    "total": 5,
    "successful": 5,
    "skipped" : 0,
    "failed": 0
  },
  "hits" : {
     "total" : {
        "value": 1000,
        "relation": "eq"
     },
    "max_score" : null,
    "hits" : [ ]
  },
  "aggregations" : {
    "group_by_state" : {
      "doc_count_error_upper_bound": 20,
      "sum_other_doc_count": 770,
      "buckets" : [ {
        "key" : "ID",
        "doc_count" : 27
      }, {
        "key" : "TX",
        "doc_count" : 27
      }, {
        "key" : "AL",
        "doc_count" : 25
      }, {
        "key" : "MD",
        "doc_count" : 25
      }, {
        "key" : "TN",
        "doc_count" : 23
      }, {
        "key" : "MA",
        "doc_count" : 21
      }, {
        "key" : "NC",
        "doc_count" : 21
      }, {
        "key" : "ND",
        "doc_count" : 21
      }, {
        "key" : "ME",
        "doc_count" : 20
      }, {
        "key" : "MO",
        "doc_count" : 20
      } ]
    }
  }
}

根据state计算每个账户的平均余额

(默认就是前10个， from=0, size=10)

GET /bank/_search
{
  "size": 0,
  "aggs": {
    "group_by_state": {
      "terms": {
        "field": "state.keyword"
      },
      "aggs": {
        "average_balance": {
          "avg": {
            "field": "balance"
          }
        }
      }
    }
  }
}

按照state，将计算的平局余额降序

GET /bank/_search
{
  "size": 0,
  "aggs": {
    "group_by_state": {
      "terms": {
        "field": "state.keyword",
        "order": {
          "average_balance": "desc"
        }
      },
      "aggs": {
        "average_balance": {
          "avg": {
            "field": "balance"
          }
        }
      }
    }
  }
}

先按照age分组(20-29,30-39,40-49),再按照性别分组，最后计算每个age，性别组里账户的平均余额

GET /bank/_search
{
  "size": 0,
  "aggs": {
    "group_by_age": {
      "range": {
        "field": "age",
        "ranges": [
          {
            "from": 20,
            "to": 30
          },
          {
            "from": 30,
            "to": 40
          },
          {
            "from": 40,
            "to": 50
          }
        ]
      },
      "aggs": {
        "group_by_gender": {
          "terms": {
            "field": "gender.keyword"
          },
          "aggs": {
            "average_balance": {
              "avg": {
                "field": "balance"
              }
            }
          }
        }
      }
    }
  }
}

set up es

安装

配置

设置jvm.options

其实jvm.options没必要修改，如果需要可修改heap size .

jvm.options详解

空行，或者#开头(代表注释)的都会被忽略。

以-开头的，代表与jvm版本无关的选项

以数字:- 开头的，当且仅当数字与jvm版本匹配的时候才适用

如: 8:-Xmx2g

以数字-:- 当前仅当jvm版本大于等于该数字才生效

如: 8-:-Xmx2g

数字-数字:-，当前仅当jvm版本再两个数字之间的才会生效

安全设置：elasticsearch-keystore

https://www.elastic.co/guide/en/elasticsearch/reference/7.1/secure-settings.html

创建keystore

bin/elasticsearch-keystore create

列出在keystore里面的所有设置

bin/elasticsearch-keystore list

新增字符串设置

bin/elasticsearch-keystore add the.setting.name.to.set

新增文件设置

bin/elasticsearch-keystore add-file the.setting.name.to.set /path/example-file.json

移除设置

bin/elasticsearch-keystore remove the.setting.name.to.remove

重新加载安全设置

在每个集群上会解密和重新读取整个keystore，但仅仅reloadable安全设置才会生效。其他的设置的更改将会在下次重启才生效

POST _nodes/reload_secure_settings

logging 配置

https://www.elastic.co/guide/en/elasticsearch/reference/7.1/logging.html

es使用log4j2来记录日志。配置文件为log4j2.properties

es暴露3个属性，可用在配置文件中使用，以确定日志未见得位置。

${sys:es.logs.base_path}将解析为日志目录

${sys:es.logs.cluster_name}将解析为群集名称（在默认配置中用作日志文件名的前缀）

${sys:es.logs.node_name}并将解析为节点名称（如果明确设置了节点名称）

如果日志目录path.logs为:/var/log/elasticsearch，集群名称为：production

那么${sys:es.logs.base_path}将被解析为： /var/log/elasticsearch

${sys:es.logs.base_path}${sys:file.separator}${sys:es.logs.cluster_name}.log 将被解析为：/var/log/elasticsearch/production.log.

审核安全设置

https://www.elastic.co/guide/en/elasticsearch/reference/7.1/auditing-settings.html

跨集群副本设置

https://www.elastic.co/guide/en/elasticsearch/reference/7.1/ccr-settings.html

es集群元素

TF-IDF

Term Frequency-Inverse Document Frequency。一种用来信息检索与文本挖掘的常用加权算法。是一种统计方法，用来评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降。