本文用于一些es方面的探索和研究,有个背景,之前面试被问到,为什么要用es,什么是倒序索引,这个es深度分页怎么解决查询效率问题、给你说个词它能分成什么样的你能说下么以及原理么、还有就是自己有没有研发过一些分词相关的东西呢,总之被怼的一塌糊涂,再也不敢写熟悉、精通这个字样了,还是一步一个脚印的慢慢来吧
一、环境搭建
建议用docker搭建吧,这样有利于学习docker相关的东西,并且如果启动多个版本的es也方便,也不污染宿主机环境
- 安装es 6.4.3版本
docker pull docker.elastic.co/elasticsearch/elasticsearch:6.4.3
docker run -it --name elasticsearch -d -p 9200:9200 -p 9300:9300 -p 5601:5601 docker.elastic.co/elasticsearch/elasticsearch:6.4.3
- 安装下中文分词IK
docker exec -it [容器Id] /bin/sh
elasticsearch-plugin install https://github.com/medcl/elasticsearch-analysis-ik/releases/download/v6.4.3/elasticsearch-analysis-ik-6.4.3.zip
- 安装一个可视化工具head
git clone git://github.com/mobz/elasticsearch-head.git
cd elasticsearch-head
npm install
npm run start
- 设置跨域
docker exec -it [容器Id] /bin/bash
# 显示文件
ls
结果如下:
LICENSE.txt README.textile config lib modules
NOTICE.txt bin data logs plugins
# 进入配置文件夹
cd config
# 显示文件
ls
结果如下:
elasticsearch.keystore ingest-geoip log4j2.properties roles.yml users_roles
elasticsearch.yml jvm.options role_mapping.yml users
# 修改配置文件
vi elasticsearch.yml
# 加入跨域配置
http.cors.enabled: true
http.cors.allow-origin: "*"
#重启服务
docker restart [容器Id]
二、快速入门
(1)创建索引库,ES的索引库是一个逻辑概念,它包括了分词列表及文档列表,同一个索引库中存储了相同类型的文档。它就相当于MySQL中的表,或相当于Mongodb中的集合。使用postman或curl这样的工具创建: put http://localhost:9200/索引库名称
{
"settings":{
"index":{
"number_of_shards":1,
"number_of_replicas":0
}
}
}
number_of_shards:设置分片的数量,在集群中通常设置多个分片,表示一个索引库将拆分成多片分别存储不同 的结点,提高了ES的处理能力和高可用性,入门程序使用单机环境,这里设置为1。
number_of_replicas:设置副本的数量,设置副本是为了提高ES的高可靠性,单机环境设置为0.
如下是创建的例子,创建hello_ex索引库,共1个分片,0个副本:
用es head查看索引,时候建立成功
补充:这里索引可能会有歧义,下面给出解释
索引(名词):ES是基于Lucene构建的一个搜索服务,它要从索引库搜索符合条件索引数据。
索引(动词):索引库刚创建起来是空的,将数据添加到索引库的过程称为索引。
(2) 创建映射
在索引中每个文档都包括了一个或多个field,创建映射就是向索引库中创建field的过程,下边是document和field与关系数据库的概念的类比:
文档(Document)----------------Row记录
字段(Field)-------------------Columns 列
注意:6.0之前的版本有type(类型)概念,type相当于关系数据库的表,ES官方将在ES9.0版本中彻底删除type。
我们先创建hello_es的映射,映射的语法,如下:
发送:post http://localhost:9200/索引库名称/类型名称/_mapping
{
"properties": {
"name": {
"type": "text"
},
"description": {
"type": "text"
},
"studymodel": {
"type": "keyword"
}
}
}
查看es head如下:
(3) 创建文档
ES中的文档相当于MySQL数据库表中的记录。
发送:put 或Post http://localhost:9200/hello_es/doc/id值 (如果不指定id值ES会自动生成ID) http://localhost:9200/hello_es/doc/4028e58161bcf7f40161bcf8b77c0000
{
"name": "Bootstrap开发框架",
"description": "Bootstrap是由Twitter推出的一个前台页面开发框架,在行业之中使用较为广泛。此开发框架包含了大量的CSS、JS程序代码,可以帮助开发者(尤其是不擅长页面开发的程序人员)轻松的实现一个不受浏览器限制的 精美界面效果。",
"studymodel": "201001"
}
使用postman 测试:
使用es head查看数据:
(4) 搜索文档
1、根据课程id查询文档
发送:get http://localhost:9200/hello_es/doc/4028e58161bcf7f40161bcf8b77c0000 使用postman测试:
2、查询所有记录
发送 get http://localhost:9200/hello_es/doc/_search
3、查询名称中包括BootStrap 关键字的的记录
发送:get http://localhost:9200/hello_es/doc/_search?q=name:Bootstrap
4、查询结果分析
{
"took": 55,
"timed_out": false,
"_shards": {
"total": 1,
"successful": 1,
"skipped": 0,
"failed": 0
},
"hits": {
"total": 1,
"max_score": 0.2876821,
"hits": [
{
"_index": "hello_es",
"_type": "doc",
"_id": "4028e58161bcf7f40161bcf8b77c0000",
"_score": 0.2876821,
"_source": {
"name": "Bootstrap开发框架",
"description": "Bootstrap是由Twitter推出的一个前台页面开发框架,在行业之中使用较为广泛。此开发框架包含了大量的CSS、JS程序代码,可以帮助开发者(尤其是不擅长页面开发的程序人员)轻松的实现一个不受浏览器限制的 精美界面效果。",
"studymodel": "201001"
}
}
]
}
}
took:本次操作花费的时间,单位为毫秒。
timed_out:请求是否超时
_shards:说明本次操作共搜索了哪些分片
hits:搜索命中的记录
hits.total : 符合条件的文档总数
hits.hits :匹配度较高的前N个文档
hits.max_score:文档匹配得分,这里为最高分
_score:每个文档都有一个匹配度得分,按照降序排列。
_source:显示了文档的原始内容。
(5) ik分词
1、在添加文档时会进行分词,索引中存放的就是一个一个的词(term),当你去搜索时就是拿关键字去匹配词,最终 找到词关联的文档。
测试当前索引库使用的分词器:
post 发送:localhost:9200/_analyze {“text”:“测试分词器,后边是测试内容:spring cloud实战”}
结果如下:
{
"tokens": [
{
"token": "测",
"start_offset": 0,
"end_offset": 1,
"type": "<IDEOGRAPHIC>",
"position": 0
},
{
"token": "试",
"start_offset": 1,
"end_offset": 2,
"type": "<IDEOGRAPHIC>",
"position": 1
},
{
"token": "分",
"start_offset": 2,
"end_offset": 3,
"type": "<IDEOGRAPHIC>",
"position": 2
},
{
"token": "词",
"start_offset": 3,
"end_offset": 4,
"type": "<IDEOGRAPHIC>",
"position": 3
}
....
]
}
会发现分词的效果将 “测试” 这个词拆分成两个单字“测”和“试”,这是因为当前索引库使用的分词器对中文就是单字 分词。
2、使用ik分词
发送:post localhost:9200/_analyze
{“text”:“测试分词器,后边是测试内容:spring cloud实战”,“analyzer”:“ik_max_word” }
{
"tokens": [
{
"token": "测试",
"start_offset": 0,
"end_offset": 2,
"type": "CN_WORD",
"position": 0
},
{
"token": "分词器",
"start_offset": 2,
"end_offset": 5,
"type": "CN_WORD",
"position": 1
},
{
"token": "后边",
"start_offset": 6,
"end_offset": 8,
"type": "CN_WORD",
"position": 2
},
{
"token": "是",
"start_offset": 8,
"end_offset": 9,
"type": "CN_CHAR",
"position": 3
},
{
"token": "测试",
"start_offset": 9,
"end_offset": 11,
"type": "CN_WORD",
"position": 4
},
{
"token": "内容",
"start_offset": 11,
"end_offset": 13,
"type": "CN_WORD",
"position": 5
},
{
"token": "spring",
"start_offset": 14,
"end_offset": 20,
"type": "ENGLISH",
"position": 6
},
{
"token": "cloud",
"start_offset": 21,
"end_offset": 26,
"type": "ENGLISH",
"position": 7
},
{
"token": "实战",
"start_offset": 26,
"end_offset": 28,
"type": "CN_WORD",
"position": 8
}
]
}
ik有两种分词模式
1、ik_max_word
会将文本做最细粒度的拆分,比如会将“中华人民共和国人民大会堂”拆分为“中华人民共和国、中华人民、中华、 华人、人民共和国、人民、共和国、大会堂、大会、会堂等词语。
2、ik_smart 会做最粗粒度的拆分,比如会将“中华人民共和国人民大会堂”拆分为中华人民共和国、人民大会堂。
对于ik分词器建议是索引时使用ik_max_word将搜索内容进行细粒度分词,搜索时使用ik_smart提高搜索精确性。
(7)映射
上边章节安装了ik分词器,如果在索引和搜索时去使用ik分词器呢?如何指定其它类型的field,比如日期类型、数值类型等。
1、查询所有索引的映射:
GET: http://localhost:9200/_mapping
2、创建映射
post 请求:http://localhost:9200/hello_es/doc/_mapping
3、更新映射
映射创建成功可以添加新字段,已有字段不允许更新。
4、删除映射
通过删除索引来删除映射。
(7) 常用映射类型
1、 text文本字段
字符串包括text和keyword两种类型:
1、text
-
analyzer
通过analyzer属性指定分词器。 下边指定name的字段类型为text,使用ik分词器的ik_max_word分词模式。 -
index
通过index属性指定是否索引。
默认为index=true,即要进行索引,只有进行索引才可以从索引库搜索到。
但是也有一些内容不需要索引,比如:商品图片地址只被用来展示图片,不进行搜索图片,此时可以将index设置 为false。
3)store
是否在source之外存储,每个文档索引后会在 ES中保存一份原始文档,存放在"_source"中,一般情况下不需要设置store为true,因为在_source中已经有一份原始文档了。
2、keyword关键字字段
上边介绍的text文本字段在映射时要设置分词器,keyword字段为关键字字段,通常搜索keyword是按照整体搜 索,所以创建keyword字段的索引时是不进行分词的,比如:邮政编码、手机号码、身份证等。keyword字段通常 用于过虑、排序、聚合等,查询方式为精确查询
2、 日期类型
日期类型不用设置分词器。
通常日期类型的字段用于排序。
1)format
通过format设置日期格式
例子: 下边的设置允许date字段存储年月日时分秒、年月日及毫秒三种格式。
{
“properties”: {
“timestamp”: {
“type”: “date”,
“format”: “yyyy‐MM‐dd HH:mm:ss||yyyy‐MM‐dd”
} }
}
{
"properties": {
"timestamp": {
"type": "date",
"format": "yyyy‐MM‐dd HH:mm:ss||yyyy‐MM‐dd"
} }
}
3、数值类型 byte、short、integer、long、float、double
1)、尽量选择范围小的类型,提高搜索效率
2)、对于浮点数尽量用比例因子,使用比例因子的好处是整型比浮点型更易压缩,节省磁盘空间。