ES学习文档

ElasticSearch引擎把文档数据写入到倒排索引(Inverted Index)的数据结构中,倒排索引建立的是分词(Term)和文档(Document)之间的映射关系,在倒排索引中,数据是面向词(Term)而不是面向文档的。

倒排索引-组成

  • 单词词典(Term Dictionary)
  • 倒排列表(Posting List

单词词典(Term Dictionary) 单词词典的实现一般用B+树,B+树构造的可视化过程网址:B+ Tree Visualization

排列表(Posting List)

倒排列表记录了单词对应的文档集合,有倒排索引项(Posting)组成

倒排索引项主要包含如下信息:

1.文档id用于获取原始信息

2.单词频率(TF,Term Frequency),记录该单词在该文档中出现的次数,用于后续相关性算分

3.位置(Posting),记录单词在文档中的分词位置(多个),用于做词语搜索(Phrase Query)

4.偏移(Offset),记录单词在文档的开始和结束位置,用于高亮显示

B+树内部结点存索引,叶子结点存数据,这里的 单词词典就是B+树索引,倒排列表就是数据,整合在一起后如下所示

![ES存储的是一个JSON格式的文档,其中包含多个字段,每个字段会有自己的倒排索引

倒排索引的结构

包含这个关键词的document list

包含这个关键词的所有document的数量:IDF(inverse document frequency)

这个关键词在每个document中出现的次数:TF(term frequency)

这个关键词在这个document中的次序

每个document的长度:length norm

包含这个关键词的所有document的平均长度

倒排索引不可变的好处

不需要锁,提升并发能力,避免锁的问题

数据不变,一直保存在os cache中,只要cache内存足够

filter cache一直驻留在内存,因为数据不变

可以压缩,节省cpu和io开销

采用lucene倒排索引作为底层

创建索引

POST /movie/include_type_name=true // movie 索引名/类型
{
 "settings":{
   "number_of_shards":3,
   "number_of_replicas":1
 },
 "mappings":{
   "_doc":{
     "properties":{
       "name":{
         "type":"text"  //指定每一个字段的类型
       },
       "type":{
         "type":"keyword"  //keyword不可在分词
       },
       "country":{
         "type":"text"
       },
       "director":{
         "type":"text"
       },
       "date":{
         "type":"date"
       }
     }
   }
 }
}

插入数据

插入数据(1代表id,不写自动设置为默认值)

POST movie/_doc/1
{
  "name":"Titanic",
  "type":"romance",
  "country":"America",
  "director":"James",
  "date":"1997-12-19"
}

修改数据

put movie/_doc/1
{
  "name":"Titanic",
  "type":"romance",
  "country":"America",
  "director":"James",
  "date":"1997-12-19"
}

查看索引

GET movie/_mappings

删除数据

(删除id为1的数据)

DELETE movie/_doc/1

查找数据

GET movie/_search

{
  "took" : 0,
  "timed_out" : false,
  "_shards" : {
    "total" : 1,
    "successful" : 1,
    "skipped" : 0,
    "failed" : 0
  },
  "hits" : { // hits 相当于对象的意思 
    "total" : {
      "value" : 2,
      "relation" : "eq"
    },
    "max_score" : 1.0, //相似度匹配
    "hits" : [
      {
        "_index" : "movie",
        "_type" : "include_type_name=true",
        "_id" : "3VhFpHsBMmGn_92DeyFd",
        "_score" : 1.0,
        "_source" : {
          "settings" : {
            "number_of_shards" : 3,
            "number_of_replicas" : 1
          },
          "mappings" : {
            "_doc" : {
              "properties" : {
                "name" : {
                  "type" : "text"
                },
                "type" : {
                  "type" : "keyword"
                },
                "country" : {
                  "type" : "text"
                },
                "director" : {
                  "type" : "text"
                },
                "date" : {
                  "type" : "date"
                }
              }
            }
          }
        }
      },
      {
        "_index" : "movie",
        "_type" : "include_type_name=true",
        "_id" : "1",
        "_score" : 1.0,
        "_source" : {
          "name" : "zhuozhou",
          "type" : "romance",
          "country" : "America",
          "director" : "James",
          "date" : "1997-12-19"
        }
      }
    ]
  }
}

按照日期降序查

GET movie/_search
{
  "query": {
    "match_all": {}
  },
  "sort": [
    {
      "date": {
        "order": "desc"
      }
    }
  ]
}

根据某个字段进行查询

GET movie/_search
{
  "query": {
    "match": {
      "name": "hei"
    }
  }
}

只匹配name="leon"的数据

#只匹配leon字段
GET movie/_search
{
  "query": {
    "match_phrase": {
      "name": "leon"
    }
  }
}

多个字段匹配查询(name和sex都包含女的数据)

GET people/_search
{
  "query": {
    "multi_match": {
      "query": YNTI202112300021",
      "fields": ["	
touristMessages.teamId"]
    }
  }
}

字段级别查询(sex为男和女的数据)

GET people/_search
{
  "query": {
    "terms": {
      "sex": [
        "男",
        "女"
      ]
    }
  }
}

语法查询(查询name包含“小”的数据,text类型)

GET people/_search
{
  "query": {
    "query_string": {
      "default_field": "name",
      "query": "小"
    }
  }
}

范围查询(查询date为1995-01-01~2000-01-01之间的数据)

GET movie/_search
{
  "query": {
    "range": {
      "date": {
        "gte": "1995-01-01",
        "lte": "2000-01-01"
      }
    }
  }
}

es导入数据到服务器

查询es服务器中的索引

GET http://ip:9200/_cat/indices?v

创建es的索引

PUT http://ip:9200/yuqing-v2-all_20211103

删除索引

DELETE http://ip:9200/yuqing-v2-all_20211103

进入es的bin目录

/home/node_modules/elasticdump/bin

创建数据索引的映射

./elasticdump --input /home/gzsendi/es6/esdata/yuqing-v2-all_20211108_mapping.json --output "http://127.0.0.1:9200/yuqing-v2-all_20211103" --type=mapping

/yuqing-v2-all_20211108_mapping.json——》mapping文件
yuqing-v2-all_20211103——》索引文件

执行数据导入

./elasticdump --input /home/gzsendi/es6/esdata/yuqing-v2-all_20211108.json --output "http://127.0.0.1:9200/yuqing-v2-all_20211108" --type=data

Es宕机

/etc/init.d/elasticsearch start

/etc/init.d/elasticsearch stop


/etc/init.d/elasticsearch restart
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值