ES为什么快?
因为倒排索引,在传统的数据库中,是通过索引找数据,而倒排索引是通过关键字(词条)找id,再通过id找到文档的详情信息。
创建倒排索引是对正向索引的一种特殊处理,流程如下:
- 将每一个文档的数据利用算法分词,得到一个个词条
- 创建表,每行数据包括词条、词条所在文档id、位置等信息
- 因为词条唯一性,可以给词条创建索引,例如hash表结构索引
倒排索引的搜索流程如下(以搜索"华为手机"为例):
- 用户输入条件 "华为手机"进行搜索。
- 对用户输入内容分词,得到词条: 华为、手机。
- 拿着词条在倒排索引中查找,可以得到包含词条的文档id:1、2、3。
- 拿着文档id到正向索引中查找具体文档。
与Redis的区别
Redis适合作为缓存,简单查询,ES适合全文搜索,复杂查询。
mysql与elasticsearch
我们统一的把mysql与elasticsearch的概念做一下对比:
MySQL | Elasticsearch | 说明 |
Table | Index | 索引(index),就是文档的集合,类似数据库的表(table) |
Row | Document | 文档(Document),就是一条条的数据,类似数据库中的行(Row),文档都是JSON格式 |
Column | Field | 字段(Field),就是JSON文档中的字段,类似数据库中的列(Column) |
Schema | Mapping | Mapping(映射)是索引中文档的约束,例如字段类型约束。类似数据库的表结构(Schema) |
SQL | DSL | DSL是elasticsearch提供的JSON风格的请求语句,用来操作elasticsearch,实现CRUD |
是不是说,我们学习了elasticsearch就不再需要mysql了呢?
并不是如此,两者各自有自己的擅长支出:
- Mysql:擅长事务类型操作,可以确保数据的安全和一致性
- Elasticsearch:擅长海量数据的搜索、分析、计算
因此在企业中,往往是两者结合使用:
- 对安全性要求较高的写操作,使用mysql实现
- 对查询性能要求较高的搜索需求,使用elasticsearch实现
- 两者再基于某种方式,实现数据的同步,保证一致性
IK分词器
分词器的作用是什么?
- 创建倒排索引时对文档分词
- 用户搜索时,对输入的内容分词
IK分词器有几种模式?
- ik_smart:智能切分,粗粒度
- ik_max_word:最细切分,细粒度
索引库操作
索引库就类似数据库表,mapping映射就类似表的结构。
我们要向es中存储数据,必须先创建“库”和“表”。
mapping映射属性
mapping是对索引库中文档的约束,常见的mapping属性包括:
- type:字段数据类型,常见的简单类型有:
-
- 字符串:text(可分词的文本)、keyword(精确值,例如:品牌、国家、ip地址)
- 数值:long、integer、short、byte、double、float、
- 布尔:boolean
- 日期:date
- 对象:object
- index:是否创建索引,默认为true,参与搜索给索引
- analyzer:使用哪种分词器,模糊查找给分词器
- properties:该字段的子字段
例如下面的JSON文档:
{
"age":18,
"weight":70.2,
"isMarred": false,
"info":"apesourceJavaEE王讲师",
"email":"wang1s@163.com",
"score":[99.1,99.5,98.9],
"name":{
"firstName":"师傅",
"lastName":"王"
}
}
对应的每个字段映射(mapping):
- age:类型为integer;参与搜索,因此需要index为true;无需分词器
- weight:类型为float;参与搜索,因此需要index为true;无需分词器
- isMarried:类型为boolean;参与搜索,因此需要index为true;无需分词器
- info:类型为字符串,需要分词,因此是text;参与搜索,因此需要index为true;分词器可以用ik_smart
- email:类型为字符串,但是不需要分词,因此是keyword;不参与搜索,因此需要index为false;无需分词器
- score:虽然是数组,但是我们只看元素的类型,类型为float;参与搜索,因此需要index为true;无需分词器
- name:类型为object,需要定义多个子属性
-
- name.firsName;类型为字符串,但是不需要分词,因此是keyword;参与搜索,因此需要index为true;无需分词器
- name.lastName;类型为字符串,但是不需要分词,因此是keyword;参与搜索,因此需要index为true;无需分词器
创建索引库和映射
基本语法:
- 请求方式:PUT
- 请求路径:/索引库名,可以自定义
- 请求参数:mapping映射
格式:
{
"mappings": {
"properties": {
"字段名id": {
"type": "integer"
},
"name": {
"properties": {
"firstname": {
"type": "keyword"
},
"lastname": {
"type": "keyword"
}
}
},
"age": {
"type": "integer"
},
"info": {
"type": "text",
"analyzer": "ik_smart"
},
"isMarried": {
"type": "boolean"
}
}
}
}
查询索引库
基本语法:
- 请求方式:GET
- 请求路径:/索引库名
- 请求参数:无
修改索引库
倒排索引结构虽然不复杂,但是一旦数据结构改变(比如改变了分词器),就需要重新创建倒排索引,这简直是灾难。因此索引库一旦创建,无法修改mapping。
虽然无法修改mapping中已有的字段,但是却允许添加新的字段到mapping中,因为不会对倒排索引产生影响。
基本语法:
{
"properties": {
"新增字段": {
"type": "integer"
}
}
}
删除索引库
语法:
- 请求方式:DELETE
- 请求路径:/索引库名
- 请求参数:无
总结
- 创建索引库:PUT /索引库名
- 查询索引库:GET /索引库名
- 删除索引库:DELETE /索引库名
- 添加字段:PUT /索引库名/_mapping
文档操作
新增文档
语法:
{
"age":18,
"weight":70.2,
"isMarred": false,
"info":"apesourceJavaEE王讲师",
"email":"wang1s@163.com",
"score":[99.1,99.5,98.9],
"name":{
"firstName":"师傅",
"lastName":"王"
}
}
查询文档
根据rest风格,新增是post,查询应该是get,不过查询一般都需要条件,这里我们把文档id带上。
语法:
删除文档
删除使用DELETE请求,同样,需要根据id进行删除:
语法:
修改文档
修改有两种方式:
- 全量修改:直接覆盖原来的文档
- 增量修改:修改文档中的部分字段
全量修改
全量修改是覆盖原来的文档,其本质是:
- 根据指定的id删除文档
- 新增一个相同id的文档
注意:如果根据id删除时,id不存在,第二步的新增也会执行,也就从修改变成了新增操作了。
{
"age":1000,
"weight":70.2,
"isMarred": false,
"info":"apesourceJavaEE周讲师",
"email":"wang1s@163.com",
"score":[99.1,99.5,98.9],
"name":{
"firstName":"师傅",
"lastName":"周"
}
}
增量修改
增量修改是只修改指定id匹配的文档中的部分字段。
{
"doc":{
"要修改的字段名":"新值"
}
}
总结
- 创建文档:POST/{索引库名}/_doc/文档id{json文档}
- 查询文档:GET/{索引库名}/_doc/文档id
- 删除文档:DELETE/{索引库名}/_doc/文档id
- 修改文档:
-
- 全量修改:PUT/{索引库名}/_doc/文档id{json文档}
- 增量修改:POST/{索引库名}/_update/文档id {"doc":{字段}}