【ElasticSearch专题】ElasticSearch 初探

本文用于一些es方面的探索和研究,有个背景,之前面试被问到,为什么要用es,什么是倒序索引,这个es深度分页怎么解决查询效率问题、给你说个词它能分成什么样的你能说下么以及原理么、还有就是自己有没有研发过一些分词相关的东西呢,总之被怼的一塌糊涂,再也不敢写熟悉、精通这个字样了,还是一步一个脚印的慢慢来吧
在这里插入图片描述

一、环境搭建

建议用docker搭建吧,这样有利于学习docker相关的东西,并且如果启动多个版本的es也方便,也不污染宿主机环境

  1. 安装es 6.4.3版本
docker pull docker.elastic.co/elasticsearch/elasticsearch:6.4.3
docker run -it --name elasticsearch -d -p 9200:9200 -p 9300:9300 -p 5601:5601 docker.elastic.co/elasticsearch/elasticsearch:6.4.3
  1. 安装下中文分词IK
docker exec -it [容器Id] /bin/sh
elasticsearch-plugin install https://github.com/medcl/elasticsearch-analysis-ik/releases/download/v6.4.3/elasticsearch-analysis-ik-6.4.3.zip 
  1. 安装一个可视化工具head
git clone git://github.com/mobz/elasticsearch-head.git
cd elasticsearch-head
npm install
npm run start
  1. 设置跨域
docker exec -it [容器Id]  /bin/bash
# 显示文件
ls
结果如下:
LICENSE.txt  README.textile  config  lib   modules
NOTICE.txt   bin             data    logs  plugins

# 进入配置文件夹
cd config

# 显示文件
ls
结果如下:
elasticsearch.keystore  ingest-geoip  log4j2.properties  roles.yml  users_roles
elasticsearch.yml       jvm.options   role_mapping.yml   users

# 修改配置文件
vi elasticsearch.yml

# 加入跨域配置
http.cors.enabled: true
http.cors.allow-origin: "*"
#重启服务
docker restart [容器Id]
二、快速入门

(1)创建索引库,ES的索引库是一个逻辑概念,它包括了分词列表及文档列表,同一个索引库中存储了相同类型的文档。它就相当于MySQL中的表,或相当于Mongodb中的集合。使用postman或curl这样的工具创建: put http://localhost:9200/索引库名称

{
     "settings":{
     "index":{
         "number_of_shards":1,
         "number_of_replicas":0
       }
     } 
}

number_of_shards:设置分片的数量,在集群中通常设置多个分片,表示一个索引库将拆分成多片分别存储不同 的结点,提高了ES的处理能力和高可用性,入门程序使用单机环境,这里设置为1。

number_of_replicas:设置副本的数量,设置副本是为了提高ES的高可靠性,单机环境设置为0.

如下是创建的例子,创建hello_ex索引库,共1个分片,0个副本:
在这里插入图片描述
用es head查看索引,时候建立成功
在这里插入图片描述
补充:这里索引可能会有歧义,下面给出解释

索引(名词):ES是基于Lucene构建的一个搜索服务,它要从索引库搜索符合条件索引数据。

索引(动词):索引库刚创建起来是空的,将数据添加到索引库的过程称为索引。

(2) 创建映射
在索引中每个文档都包括了一个或多个field,创建映射就是向索引库中创建field的过程,下边是document和field与关系数据库的概念的类比:

文档(Document)----------------Row记录
字段(Field)-------------------Columns 列

注意:6.0之前的版本有type(类型)概念,type相当于关系数据库的表,ES官方将在ES9.0版本中彻底删除type。

我们先创建hello_es的映射,映射的语法,如下:

发送:post http://localhost:9200/索引库名称/类型名称/_mapping

{
	"properties": {
		"name": {
			"type": "text"
		},
		"description": {
			"type": "text"
		},
		"studymodel": {
			"type": "keyword"
		}
	}
}

在这里插入图片描述
查看es head如下:
在这里插入图片描述
(3) 创建文档
ES中的文档相当于MySQL数据库表中的记录。
发送:put 或Post http://localhost:9200/hello_es/doc/id值 (如果不指定id值ES会自动生成ID) http://localhost:9200/hello_es/doc/4028e58161bcf7f40161bcf8b77c0000

{
	"name": "Bootstrap开发框架",
	"description": "Bootstrap是由Twitter推出的一个前台页面开发框架,在行业之中使用较为广泛。此开发框架包含了大量的CSS、JS程序代码,可以帮助开发者(尤其是不擅长页面开发的程序人员)轻松的实现一个不受浏览器限制的 精美界面效果。",
	"studymodel": "201001"
}

使用postman 测试:
在这里插入图片描述
使用es head查看数据:
在这里插入图片描述
(4) 搜索文档

1、根据课程id查询文档
发送:get http://localhost:9200/hello_es/doc/4028e58161bcf7f40161bcf8b77c0000 使用postman测试:
在这里插入图片描述
2、查询所有记录
发送 get http://localhost:9200/hello_es/doc/_search
在这里插入图片描述

3、查询名称中包括BootStrap 关键字的的记录
发送:get http://localhost:9200/hello_es/doc/_search?q=name:Bootstrap
在这里插入图片描述
4、查询结果分析

{
	"took": 55,
	"timed_out": false,
	"_shards": {
		"total": 1,
		"successful": 1,
		"skipped": 0,
		"failed": 0
	},
	"hits": {
		"total": 1,
		"max_score": 0.2876821,
		"hits": [
			{
				"_index": "hello_es",
				"_type": "doc",
				"_id": "4028e58161bcf7f40161bcf8b77c0000",
				"_score": 0.2876821,
				"_source": {
					"name": "Bootstrap开发框架",
					"description": "Bootstrap是由Twitter推出的一个前台页面开发框架,在行业之中使用较为广泛。此开发框架包含了大量的CSS、JS程序代码,可以帮助开发者(尤其是不擅长页面开发的程序人员)轻松的实现一个不受浏览器限制的 精美界面效果。",
					"studymodel": "201001"
				}
			}
		]
	}
}

took:本次操作花费的时间,单位为毫秒。
timed_out:请求是否超时
_shards:说明本次操作共搜索了哪些分片
hits:搜索命中的记录
hits.total : 符合条件的文档总数
hits.hits :匹配度较高的前N个文档
hits.max_score:文档匹配得分,这里为最高分
_score:每个文档都有一个匹配度得分,按照降序排列。
_source:显示了文档的原始内容。

(5) ik分词

1、在添加文档时会进行分词,索引中存放的就是一个一个的词(term),当你去搜索时就是拿关键字去匹配词,最终 找到词关联的文档。

测试当前索引库使用的分词器:
post 发送:localhost:9200/_analyze {“text”:“测试分词器,后边是测试内容:spring cloud实战”}

结果如下:

{
    "tokens": [
        {
            "token": "测",
            "start_offset": 0,
            "end_offset": 1,
            "type": "<IDEOGRAPHIC>",
            "position": 0
        },
        {
            "token": "试",
            "start_offset": 1,
            "end_offset": 2,
            "type": "<IDEOGRAPHIC>",
            "position": 1
        },
        {
            "token": "分",
            "start_offset": 2,
            "end_offset": 3,
            "type": "<IDEOGRAPHIC>",
            "position": 2
        },
        {
            "token": "词",
            "start_offset": 3,
            "end_offset": 4,
            "type": "<IDEOGRAPHIC>",
            "position": 3
        }
        ....
    ]
}

会发现分词的效果将 “测试” 这个词拆分成两个单字“测”和“试”,这是因为当前索引库使用的分词器对中文就是单字 分词。
2、使用ik分词
发送:post localhost:9200/_analyze
{“text”:“测试分词器,后边是测试内容:spring cloud实战”,“analyzer”:“ik_max_word” }

{
    "tokens": [
        {
            "token": "测试",
            "start_offset": 0,
            "end_offset": 2,
            "type": "CN_WORD",
            "position": 0
        },
        {
            "token": "分词器",
            "start_offset": 2,
            "end_offset": 5,
            "type": "CN_WORD",
            "position": 1
        },
        {
            "token": "后边",
            "start_offset": 6,
            "end_offset": 8,
            "type": "CN_WORD",
            "position": 2
        },
        {
            "token": "是",
            "start_offset": 8,
            "end_offset": 9,
            "type": "CN_CHAR",
            "position": 3
        },
        {
            "token": "测试",
            "start_offset": 9,
            "end_offset": 11,
            "type": "CN_WORD",
            "position": 4
        },
        {
            "token": "内容",
            "start_offset": 11,
            "end_offset": 13,
            "type": "CN_WORD",
            "position": 5
        },
        {
            "token": "spring",
            "start_offset": 14,
            "end_offset": 20,
            "type": "ENGLISH",
            "position": 6
        },
        {
            "token": "cloud",
            "start_offset": 21,
            "end_offset": 26,
            "type": "ENGLISH",
            "position": 7
        },
        {
            "token": "实战",
            "start_offset": 26,
            "end_offset": 28,
            "type": "CN_WORD",
            "position": 8
        }
    ]
}

ik有两种分词模式
1、ik_max_word
会将文本做最细粒度的拆分,比如会将“中华人民共和国人民大会堂”拆分为“中华人民共和国、中华人民、中华、 华人、人民共和国、人民、共和国、大会堂、大会、会堂等词语。
2、ik_smart 会做最粗粒度的拆分,比如会将“中华人民共和国人民大会堂”拆分为中华人民共和国、人民大会堂。

对于ik分词器建议是索引时使用ik_max_word将搜索内容进行细粒度分词,搜索时使用ik_smart提高搜索精确性。

(7)映射
上边章节安装了ik分词器,如果在索引和搜索时去使用ik分词器呢?如何指定其它类型的field,比如日期类型、数值类型等。

1、查询所有索引的映射:
GET: http://localhost:9200/_mapping

2、创建映射
post 请求:http://localhost:9200/hello_es/doc/_mapping

3、更新映射
映射创建成功可以添加新字段,已有字段不允许更新。

4、删除映射
通过删除索引来删除映射。

(7) 常用映射类型
1、 text文本字段

字符串包括text和keyword两种类型:
1、text

  1. analyzer
    通过analyzer属性指定分词器。 下边指定name的字段类型为text,使用ik分词器的ik_max_word分词模式。

  2. index
    通过index属性指定是否索引。
    默认为index=true,即要进行索引,只有进行索引才可以从索引库搜索到。
    但是也有一些内容不需要索引,比如:商品图片地址只被用来展示图片,不进行搜索图片,此时可以将index设置 为false。

3)store
是否在source之外存储,每个文档索引后会在 ES中保存一份原始文档,存放在"_source"中,一般情况下不需要设置store为true,因为在_source中已经有一份原始文档了。
2、keyword关键字字段
上边介绍的text文本字段在映射时要设置分词器,keyword字段为关键字字段,通常搜索keyword是按照整体搜 索,所以创建keyword字段的索引时是不进行分词的,比如:邮政编码、手机号码、身份证等。keyword字段通常 用于过虑、排序、聚合等,查询方式为精确查询

2、 日期类型

日期类型不用设置分词器。
通常日期类型的字段用于排序。
1)format
通过format设置日期格式
例子: 下边的设置允许date字段存储年月日时分秒、年月日及毫秒三种格式。
{
“properties”: {
“timestamp”: {
“type”: “date”,
“format”: “yyyy‐MM‐dd HH:mm:ss||yyyy‐MM‐dd”
} }
}

    {
       "properties": {
           "timestamp": {
             "type":   "date",
             "format": "yyyy‐MM‐dd HH:mm:ss||yyyy‐MM‐dd"
} }
}

3、数值类型 byte、short、integer、long、float、double
1)、尽量选择范围小的类型,提高搜索效率
2)、对于浮点数尽量用比例因子,使用比例因子的好处是整型比浮点型更易压缩,节省磁盘空间。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值