【ElasticSearch专题】ElasticSearch 初探

最新推荐文章于 2024-04-03 08:51:35 发布

it噩梦

最新推荐文章于 2024-04-03 08:51:35 发布

阅读量621

点赞数 1

文章标签： elasticsearch

本文链接：https://blog.csdn.net/qq_37362891/article/details/103235062

版权

本文用于一些es方面的探索和研究，有个背景，之前面试被问到，为什么要用es，什么是倒序索引，这个es深度分页怎么解决查询效率问题、给你说个词它能分成什么样的你能说下么以及原理么、还有就是自己有没有研发过一些分词相关的东西呢，总之被怼的一塌糊涂，再也不敢写熟悉、精通这个字样了，还是一步一个脚印的慢慢来吧
在这里插入图片描述

一、环境搭建

建议用docker搭建吧，这样有利于学习docker相关的东西，并且如果启动多个版本的es也方便，也不污染宿主机环境

安装es 6.4.3版本

docker pull docker.elastic.co/elasticsearch/elasticsearch:6.4.3
docker run -it --name elasticsearch -d -p 9200:9200 -p 9300:9300 -p 5601:5601 docker.elastic.co/elasticsearch/elasticsearch:6.4.3

安装下中文分词IK

docker exec -it [容器Id] /bin/sh
elasticsearch-plugin install https://github.com/medcl/elasticsearch-analysis-ik/releases/download/v6.4.3/elasticsearch-analysis-ik-6.4.3.zip

安装一个可视化工具head

git clone git://github.com/mobz/elasticsearch-head.git
cd elasticsearch-head
npm install
npm run start

设置跨域

docker exec -it [容器Id]  /bin/bash
# 显示文件
ls
结果如下：
LICENSE.txt  README.textile  config  lib   modules
NOTICE.txt   bin             data    logs  plugins

# 进入配置文件夹
cd config

# 显示文件
ls
结果如下：
elasticsearch.keystore  ingest-geoip  log4j2.properties  roles.yml  users_roles
elasticsearch.yml       jvm.options   role_mapping.yml   users

# 修改配置文件
vi elasticsearch.yml

# 加入跨域配置
http.cors.enabled: true
http.cors.allow-origin: "*"
#重启服务
docker restart [容器Id]

二、快速入门

（1）创建索引库，ES的索引库是一个逻辑概念，它包括了分词列表及文档列表，同一个索引库中存储了相同类型的文档。它就相当于MySQL中的表，或相当于Mongodb中的集合。使用postman或curl这样的工具创建: put http://localhost:9200/索引库名称

{
     "settings":{
     "index":{
         "number_of_shards":1,
         "number_of_replicas":0
       }
     } 
}

number_of_shards:设置分片的数量，在集群中通常设置多个分片，表示一个索引库将拆分成多片分别存储不同的结点，提高了ES的处理能力和高可用性，入门程序使用单机环境，这里设置为1。

number_of_replicas:设置副本的数量，设置副本是为了提高ES的高可靠性，单机环境设置为0.

如下是创建的例子，创建hello_ex索引库，共1个分片，0个副本:
在这里插入图片描述
用es head查看索引，时候建立成功

补充：这里索引可能会有歧义，下面给出解释

索引(名词):ES是基于Lucene构建的一个搜索服务，它要从索引库搜索符合条件索引数据。

索引(动词):索引库刚创建起来是空的，将数据添加到索引库的过程称为索引。

(2) 创建映射
在索引中每个文档都包括了一个或多个field，创建映射就是向索引库中创建field的过程，下边是document和field与关系数据库的概念的类比:

文档(Document)----------------Row记录
字段(Field)-------------------Columns 列

注意:6.0之前的版本有type(类型)概念，type相当于关系数据库的表，ES官方将在ES9.0版本中彻底删除type。

我们先创建hello_es的映射，映射的语法，如下：

发送:post http://localhost:9200/索引库名称/类型名称/_mapping

{
	"properties": {
		"name": {
			"type": "text"
		},
		"description": {
			"type": "text"
		},
		"studymodel": {
			"type": "keyword"
		}
	}
}

在这里插入图片描述
查看es head如下：

(3) 创建文档
ES中的文档相当于MySQL数据库表中的记录。
发送:put 或Post http://localhost:9200/hello_es/doc/id值 (如果不指定id值ES会自动生成ID) http://localhost:9200/hello_es/doc/4028e58161bcf7f40161bcf8b77c0000

{
	"name": "Bootstrap开发框架",
	"description": "Bootstrap是由Twitter推出的一个前台页面开发框架，在行业之中使用较为广泛。此开发框架包含了大量的CSS、JS程序代码，可以帮助开发者(尤其是不擅长页面开发的程序人员)轻松的实现一个不受浏览器限制的 精美界面效果。",
	"studymodel": "201001"
}

使用postman 测试：
在这里插入图片描述
使用es head查看数据：

(4) 搜索文档

1、根据课程id查询文档
发送:get http://localhost:9200/hello_es/doc/4028e58161bcf7f40161bcf8b77c0000 使用postman测试:
在这里插入图片描述
2、查询所有记录
发送 get http://localhost:9200/hello_es/doc/_search

3、查询名称中包括BootStrap 关键字的的记录
发送:get http://localhost:9200/hello_es/doc/_search?q=name:Bootstrap
在这里插入图片描述
4、查询结果分析

{
	"took": 55,
	"timed_out": false,
	"_shards": {
		"total": 1,
		"successful": 1,
		"skipped": 0,
		"failed": 0
	},
	"hits": {
		"total": 1,
		"max_score": 0.2876821,
		"hits": [
			{
				"_index": "hello_es",
				"_type": "doc",
				"_id": "4028e58161bcf7f40161bcf8b77c0000",
				"_score": 0.2876821,
				"_source": {
					"name": "Bootstrap开发框架",
					"description": "Bootstrap是由Twitter推出的一个前台页面开发框架，在行业之中使用较为广泛。此开发框架包含了大量的CSS、JS程序代码，可以帮助开发者(尤其是不擅长页面开发的程序人员)轻松的实现一个不受浏览器限制的 精美界面效果。",
					"studymodel": "201001"
				}
			}
		]
	}
}

took:本次操作花费的时间，单位为毫秒。
timed_out:请求是否超时
_shards:说明本次操作共搜索了哪些分片
hits:搜索命中的记录
hits.total : 符合条件的文档总数
hits.hits :匹配度较高的前N个文档
hits.max_score:文档匹配得分，这里为最高分
_score:每个文档都有一个匹配度得分，按照降序排列。
_source:显示了文档的原始内容。

(5) ik分词

1、在添加文档时会进行分词，索引中存放的就是一个一个的词(term)，当你去搜索时就是拿关键字去匹配词，最终找到词关联的文档。

测试当前索引库使用的分词器:
post 发送:localhost:9200/_analyze {“text”:“测试分词器，后边是测试内容:spring cloud实战”}

结果如下：

{
    "tokens": [
        {
            "token": "测",
            "start_offset": 0,
            "end_offset": 1,
            "type": "<IDEOGRAPHIC>",
            "position": 0
        },
        {
            "token": "试",
            "start_offset": 1,
            "end_offset": 2,
            "type": "<IDEOGRAPHIC>",
            "position": 1
        },
        {
            "token": "分",
            "start_offset": 2,
            "end_offset": 3,
            "type": "<IDEOGRAPHIC>",
            "position": 2
        },
        {
            "token": "词",
            "start_offset": 3,
            "end_offset": 4,
            "type": "<IDEOGRAPHIC>",
            "position": 3
        }
        ....
    ]
}

会发现分词的效果将 “测试” 这个词拆分成两个单字“测”和“试”，这是因为当前索引库使用的分词器对中文就是单字分词。
2、使用ik分词
发送:post localhost:9200/_analyze
{“text”:“测试分词器，后边是测试内容:spring cloud实战”,“analyzer”:“ik_max_word” }

{
    "tokens": [
        {
            "token": "测试",
            "start_offset": 0,
            "end_offset": 2,
            "type": "CN_WORD",
            "position": 0
        },
        {
            "token": "分词器",
            "start_offset": 2,
            "end_offset": 5,
            "type": "CN_WORD",
            "position": 1
        },
        {
            "token": "后边",
            "start_offset": 6,
            "end_offset": 8,
            "type": "CN_WORD",
            "position": 2
        },
        {
            "token": "是",
            "start_offset": 8,
            "end_offset": 9,
            "type": "CN_CHAR",
            "position": 3
        },
        {
            "token": "测试",
            "start_offset": 9,
            "end_offset": 11,
            "type": "CN_WORD",
            "position": 4
        },
        {
            "token": "内容",
            "start_offset": 11,
            "end_offset": 13,
            "type": "CN_WORD",
            "position": 5
        },
        {
            "token": "spring",
            "start_offset": 14,
            "end_offset": 20,
            "type": "ENGLISH",
            "position": 6
        },
        {
            "token": "cloud",
            "start_offset": 21,
            "end_offset": 26,
            "type": "ENGLISH",
            "position": 7
        },
        {
            "token": "实战",
            "start_offset": 26,
            "end_offset": 28,
            "type": "CN_WORD",
            "position": 8
        }
    ]
}

ik有两种分词模式
1、ik_max_word
会将文本做最细粒度的拆分，比如会将“中华人民共和国人民大会堂”拆分为“中华人民共和国、中华人民、中华、华人、人民共和国、人民、共和国、大会堂、大会、会堂等词语。
2、ik_smart 会做最粗粒度的拆分，比如会将“中华人民共和国人民大会堂”拆分为中华人民共和国、人民大会堂。

对于ik分词器建议是索引时使用ik_max_word将搜索内容进行细粒度分词，搜索时使用ik_smart提高搜索精确性。

（7）映射
上边章节安装了ik分词器，如果在索引和搜索时去使用ik分词器呢?如何指定其它类型的field，比如日期类型、数值类型等。

1、查询所有索引的映射:
GET: http://localhost:9200/_mapping

2、创建映射
post 请求:http://localhost:9200/hello_es/doc/_mapping

3、更新映射
映射创建成功可以添加新字段，已有字段不允许更新。

4、删除映射
通过删除索引来删除映射。

(7) 常用映射类型
1、 text文本字段

字符串包括text和keyword两种类型:
1、text

analyzer
通过analyzer属性指定分词器。下边指定name的字段类型为text，使用ik分词器的ik_max_word分词模式。
index
通过index属性指定是否索引。
默认为index=true，即要进行索引，只有进行索引才可以从索引库搜索到。
但是也有一些内容不需要索引，比如:商品图片地址只被用来展示图片，不进行搜索图片，此时可以将index设置为false。

3)store
是否在source之外存储，每个文档索引后会在 ES中保存一份原始文档，存放在"_source"中，一般情况下不需要设置store为true，因为在_source中已经有一份原始文档了。
2、keyword关键字字段
上边介绍的text文本字段在映射时要设置分词器，keyword字段为关键字字段，通常搜索keyword是按照整体搜索，所以创建keyword字段的索引时是不进行分词的，比如:邮政编码、手机号码、身份证等。keyword字段通常用于过虑、排序、聚合等，查询方式为精确查询

2、日期类型

日期类型不用设置分词器。
通常日期类型的字段用于排序。
1)format
通过format设置日期格式
例子: 下边的设置允许date字段存储年月日时分秒、年月日及毫秒三种格式。
{
“properties”: {
“timestamp”: {
“type”: “date”,
“format”: “yyyy‐MM‐dd HH:mm:ss||yyyy‐MM‐dd”
} }
}

    {
       "properties": {
           "timestamp": {
             "type":   "date",
             "format": "yyyy‐MM‐dd HH:mm:ss||yyyy‐MM‐dd"
} }
}

3、数值类型 byte、short、integer、long、float、double
1）、尽量选择范围小的类型，提高搜索效率
2）、对于浮点数尽量用比例因子，使用比例因子的好处是整型比浮点型更易压缩，节省磁盘空间。

it噩梦

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫