ElasticSearch介绍及使用

ES为什么快?

因为倒排索引,在传统的数据库中,是通过索引找数据,而倒排索引是通过关键字(词条)找id,再通过id找到文档的详情信息。

创建倒排索引是对正向索引的一种特殊处理,流程如下:

  • 将每一个文档的数据利用算法分词,得到一个个词条
  • 创建表,每行数据包括词条、词条所在文档id、位置等信息
  • 因为词条唯一性,可以给词条创建索引,例如hash表结构索引

倒排索引的搜索流程如下(以搜索"华为手机"为例):

  1. 用户输入条件 "华为手机"进行搜索。
  2. 对用户输入内容分词,得到词条: 华为、手机。
  3. 拿着词条在倒排索引中查找,可以得到包含词条的文档id:1、2、3。
  4. 拿着文档id到正向索引中查找具体文档。

与Redis的区别

Redis适合作为缓存,简单查询,ES适合全文搜索,复杂查询。

mysql与elasticsearch

我们统一的把mysql与elasticsearch的概念做一下对比:

MySQL

Elasticsearch

说明

Table

Index

索引(index),就是文档的集合,类似数据库的表(table)

Row

Document

文档(Document),就是一条条的数据,类似数据库中的行(Row),文档都是JSON格式

Column

Field

字段(Field),就是JSON文档中的字段,类似数据库中的列(Column)

Schema

Mapping

Mapping(映射)是索引中文档的约束,例如字段类型约束。类似数据库的表结构(Schema)

SQL

DSL

DSL是elasticsearch提供的JSON风格的请求语句,用来操作elasticsearch,实现CRUD

是不是说,我们学习了elasticsearch就不再需要mysql了呢?

并不是如此,两者各自有自己的擅长支出:

  • Mysql:擅长事务类型操作,可以确保数据的安全和一致性
  • Elasticsearch:擅长海量数据的搜索、分析、计算

因此在企业中,往往是两者结合使用:

  • 对安全性要求较高的写操作,使用mysql实现
  • 对查询性能要求较高的搜索需求,使用elasticsearch实现
  • 两者再基于某种方式,实现数据的同步,保证一致性

IK分词器

分词器的作用是什么?

  • 创建倒排索引时对文档分词
  • 用户搜索时,对输入的内容分词

IK分词器有几种模式?

  • ik_smart:智能切分,粗粒度
  • ik_max_word:最细切分,细粒度

索引库操作

索引库就类似数据库表,mapping映射就类似表的结构。

我们要向es中存储数据,必须先创建“库”和“表”。

mapping映射属性

mapping是对索引库中文档的约束,常见的mapping属性包括:

  • type:字段数据类型,常见的简单类型有:
    • 字符串:text(可分词的文本)、keyword(精确值,例如:品牌、国家、ip地址)
    • 数值:long、integer、short、byte、double、float、
    • 布尔:boolean
    • 日期:date
    • 对象:object
  • index:是否创建索引,默认为true,参与搜索给索引
  • analyzer:使用哪种分词器,模糊查找给分词器
  • properties:该字段的子字段

例如下面的JSON文档:

{
  "age":18,
  "weight":70.2,
  "isMarred": false,
  "info":"apesourceJavaEE王讲师",
  "email":"wang1s@163.com",
  "score":[99.1,99.5,98.9],
  "name":{
    "firstName":"师傅",
    "lastName":"王"
  }
}

对应的每个字段映射(mapping):

  • age:类型为integer;参与搜索,因此需要index为true;无需分词器
  • weight:类型为float;参与搜索,因此需要index为true;无需分词器
  • isMarried:类型为boolean;参与搜索,因此需要index为true;无需分词器
  • info:类型为字符串,需要分词,因此是text;参与搜索,因此需要index为true;分词器可以用ik_smart
  • email:类型为字符串,但是不需要分词,因此是keyword;不参与搜索,因此需要index为false;无需分词器
  • score:虽然是数组,但是我们只看元素的类型,类型为float;参与搜索,因此需要index为true;无需分词器
  • name:类型为object,需要定义多个子属性
    • name.firsName;类型为字符串,但是不需要分词,因此是keyword;参与搜索,因此需要index为true;无需分词器
    • name.lastName;类型为字符串,但是不需要分词,因此是keyword;参与搜索,因此需要index为true;无需分词器
创建索引库和映射

基本语法:

  • 请求方式:PUT
  • 请求路径:/索引库名,可以自定义
  • 请求参数:mapping映射

格式:

{
    "mappings": {
        "properties": {
            "字段名id": {
                "type": "integer"
            },
            "name": {
                "properties": {
                    "firstname": {
                        "type": "keyword"
                    },
                    "lastname": {
                        "type": "keyword"
                    }
                }
            },
            "age": {
                "type": "integer"
            },
            "info": {
                "type": "text",
                "analyzer": "ik_smart"
            },
            "isMarried": {
                "type": "boolean"
            }
        }
    }
}
查询索引库

基本语法:

  • 请求方式:GET
  • 请求路径:/索引库名
  • 请求参数:无

修改索引库

倒排索引结构虽然不复杂,但是一旦数据结构改变(比如改变了分词器),就需要重新创建倒排索引,这简直是灾难。因此索引库一旦创建,无法修改mapping。

虽然无法修改mapping中已有的字段,但是却允许添加新的字段到mapping中,因为不会对倒排索引产生影响。

基本语法:

{
    "properties": {
        "新增字段": {
            "type": "integer"
        }
    }
}
删除索引库

语法:

  • 请求方式:DELETE
  • 请求路径:/索引库名
  • 请求参数:无

总结
  • 创建索引库:PUT /索引库名
  • 查询索引库:GET /索引库名
  • 删除索引库:DELETE /索引库名
  • 添加字段:PUT /索引库名/_mapping

文档操作

新增文档

语法:

{
  "age":18,
  "weight":70.2,
  "isMarred": false,
  "info":"apesourceJavaEE王讲师",
  "email":"wang1s@163.com",
  "score":[99.1,99.5,98.9],
  "name":{
    "firstName":"师傅",
    "lastName":"王"
  }
}
查询文档

根据rest风格,新增是post,查询应该是get,不过查询一般都需要条件,这里我们把文档id带上。

语法:

删除文档

删除使用DELETE请求,同样,需要根据id进行删除:

语法:

修改文档

修改有两种方式:

  • 全量修改:直接覆盖原来的文档
  • 增量修改:修改文档中的部分字段
全量修改

全量修改是覆盖原来的文档,其本质是:

  • 根据指定的id删除文档
  • 新增一个相同id的文档

注意:如果根据id删除时,id不存在,第二步的新增也会执行,也就从修改变成了新增操作了。

{
  "age":1000,
  "weight":70.2,
  "isMarred": false,
  "info":"apesourceJavaEE周讲师",
  "email":"wang1s@163.com",
  "score":[99.1,99.5,98.9],
  "name":{
    "firstName":"师傅",
    "lastName":"周"
  }
}
增量修改

增量修改是只修改指定id匹配的文档中的部分字段。

{
    "doc":{
        "要修改的字段名":"新值"
    }
}
总结
  • 创建文档:POST/{索引库名}/_doc/文档id{json文档}
  • 查询文档:GET/{索引库名}/_doc/文档id
  • 删除文档:DELETE/{索引库名}/_doc/文档id
  • 修改文档:
    • 全量修改:PUT/{索引库名}/_doc/文档id{json文档}
    • 增量修改:POST/{索引库名}/_update/文档id {"doc":{字段}}
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值