Elasticsearch入门

1-Elasticsearch入门

2-初识ElasticSearch

2.1-基于数据库查询的问题

数据库查询存在的问题:

  1. 性能低:使用模糊查询,左边有通配符,不会走索引,会全表扫描,性能低

  2. 功能弱:

    • 对于如下的数据如果以”华为手机“作为条件,查询不出来数据

      select * from goods where title like '%华为手机%'
      
    • 华为手机需要拆成华为和手机两个词然后分别查询

      select * from goods where title like '%华为%' or title like '%手机%'
      
    • 但是MySQL等关系型数据库并没有拆分词语的功能

Es通过倒排索引解决这些问题,比如京东的商品信息就保存在ElasticSearch中,可以很快速的得到搜索结果

2.2-倒排索引

正向索引:由《静夜思》–>床前明月光—>“前”字

倒排索引(反向索引):将文档进行分词,形成词条和id的对应关系即为反向索引。

  1. 先对“床前明月光”–> 分词

    将一段文本按照一定的规则,拆分为不同的词条(term)

  2. 所有的分词结果都记录对应的诗句内容

反向索引的实现就是对诗句进行分词,分成单个的词,由词推句,即为反向索引

2.3-ES存储和查询的原理

需要解决数据库查询存在的问题:

  1. 性能低:使用模糊查询,左边有通配符,不会走索引,会全表扫描,性能低

  2. 功能弱:对于如下的数据如果以”华为手机“作为条件,查询不出来数据

存储和查询原理:

  • 存储

    对存储数据中的title进行分词,记录每个词语和数据id的对应关系(倒排索引)

  • 搜索:使用倒排索引,自定将对title进行分词(“华为”,“手机”),找到所有的匹配:1,2,3

    使用“华为手机”作为关键字查询

2.4-ES概念详解

Lucene:是一套用于全文检索和搜寻的开源程式库,由Apache软件基金会支持和提供

ElasticSearch是一个基于Lucene的搜索服务器。隐藏了Lucene的复杂性,对外提供Restful 接口来搜索

es和solr选择哪个?

1.如果你公司现在用的solr可以满足需求就不要换了。

2.如果你公司准备进行全文检索功能的开发,建议优先考虑es,因为像Github这样大规模的搜索都在用它。

介绍

  • 一个分布式、高扩展、高实时的搜索与数据分析引擎

  • 基于RESTful web接口:http请求进行增删查改

  • 用Java语言开发的,并作为Apache许可条款下的开放源码发布,是一种流行的企业级搜索引擎

应用场景

  • 搜索:海量数据的查询

    1)用户在前端搜索关键字
    2)项目前端通过http方式请求项目服务端
    3)项目服务端通过Http RESTful方式请求ES集群进行搜索
    4)ES集群从索引库检索数据

  • 日志数据分析

  • 实时数据分析

2.5 ES和MySQL的区别

•MySQL有事务性,而ElasticSearch没有事务性,所以你删了的数据是无法恢复的。

•ElasticSearch没有物理外键这个特性,,如果你的数据强一致性要求比较高,还是建议慎用

•ElasticSearch和MySql分工不同,MySQL负责存储(增删改)数据,ElasticSearch负责搜索数据

MySQL同步数据到ES常用工具:

  • 通过JavaAPI写入ES
  • logstash, es官方推荐的
  • canal, 阿里开源的

3-启动ElasticSearch

3.1-ES启动

查看elastic是否启动

ps -ef|grep elastic

启动ES

#switch user
su ithe  # 切换到ithe用户启动
#password=ithe

cd /opt/elasticsearch-7.4.0/bin
./elasticsearch #启动

访问地址:192.168.52.128:9200

3.2-ES辅助工具启动

克隆远程连接会话,启动Kibana:

# 切换到kibana的bin目录
cd /opt/kibana-7.4.0-linux-x86_64/bin
# 启动
./kibana --allow-root

浏览器访问:http://192.168.52.128:5601/

4-核心概念(重点)

1 索引(index)

ElasticSearch存储数据的地方,可以理解成关系型数据库中的数据库概念。

2 类型(type)

一种type就像一类表。如用户表、角色表等。在Elasticsearch7.X默认type为_doc

\- ES 5.x中一个index可以有多种type。

\- ES 6.x中一个index只能有一种type。

\- ES 7.x以后,将逐步移除type这个概念,现在的操作已经不再使用,默认_doc

3 映射(mapping)

mapping定义了每个字段的类型、字段所使用的分词器等。相当于关系型数据库中的表结构。

4 文档(document)

Elasticsearch中的最小数据单元,常以json格式显示。一个document相当于MySQL数据库中的一行数据。

5 倒排索引

一个倒排索引由文档中所有不重复词的列表构成,对于其中每个词,对应一个包含它的文档id列表。

对比MySQL

在这里插入图片描述

5-脚本操作ES(重点)

5.1-复习RESTful风格

1.REST(Representational State Transfer),表述性状态转移,是一组架构约束条件和原则。满足这些约束条件和原则的应用程序或设计就是RESTful。就是一种定义接口的规范。

2.基于HTTP。

3.使用XML格式定义或JSON格式定义。

4.每一个URI代表一种资源。

5.客户端使用GET、POST、PUT、DELETE 4个表示操作方式的动词对服务端资源进行操作:

GET:用来获取资源(查询)

POST:用来新建资源(新增)

PUT:用来更新资源(修改)

DELETE:用来删除资源(删除)

5.2-操作索引

使用Kibana操作ES:http://192.168.52.128:5601/

kibana是操作ES的WEB客户端,相当于操作MySQL数据库的sqlyog

# 创建索引 
PUT person
# 查看索引
GET person
# 删除索引(同时会删除其所有数据,相当于mysql的drop database)
DELETE person
# 查询所有索引
GET _all

delete /c*   (通配符删除c 开头的索引)

5.3-ES数据类型

  1. 简单数据类型
  • 字符串

    text:会分词,不支持聚合
    keyword:不会分词,将全部内容作为一个词条,支持聚合
    
  • 数值:long.inteter,double等

在这里插入图片描述

  • 布尔:boolean

  • 二进制:binary

  • 范围类型

    integer_range, float_range, long_range, double_range, date_range 
    
  • 日期:date

  1. 复杂数据类型
  • 数组:[ ] Nested: nested (for arrays of JSON objects 数组类型的JSON对象)

  • 对象:{ } Object: object(for single JSON objects 单个JSON对象)

注意: 字段类型没有修改功能

5.4-操作映射

5.4.1 添加
# 删除索引(同时会删除其所有数据,相当于mysql的drop database)
DELETE person

# 创建索引 
PUT person

# 查看索引
GET person

# 添加映射(相当于添加表字段)
PUT /person/_mapping
{
   
    "properties":{
   
        "name":{
   
            "type":"text"
        },
        "age":{
   
            "type":"integer"
        }
    }
}
5.4.2 查看
# 仅查看映射(查看表结构)
GET person/_mapping
# 仅查看索引,会自动显示表结构(查看表结构)
GET person
5.4.3 索引+ 映射一起创建
# 创建索引并添加映射(相当于建立数据库时,(因为只有一张表type=_doc)同时制定表字段)
PUT /person
{
   
  "mappings": {
   
    "properties": {
   
      "name": {
   
        "type": "text"
      },
      "age": {
   
        "type": "integer"
      }
    }
  }
}

5.5-操作文档

5.5.1添加/更新文档
# 指定id,如果id=1数据不存在,则添加(insert)数据;否则是修改(update)
PUT /person/_doc/1
{
   
  "name":"张三",
  "age":18,
  "address":"北京海淀区"
}

# 添加文档,不指定id
POST /person/_doc/
{
   
  "name":"王五",
  "age":18,
  "address":"北京"
}
5.5.2查看文档(简单查看)
# 根据id 查看
GET /person1/_doc/1
# 查看所有(无条件查询)
GET /person1/_search
5.5.3删除
# 删除指定id文档
DELETE /person1/_doc/1

6-分词器

6.1分词器-介绍

在这里插入图片描述

6.2-ik分词器

中文分词器

•IKAnalyzer是一个开源的,基于java语言开发的轻量级的中文分词工具包

•是一个基于Maven构建的项目

•具有60万字/秒的高速处理能力

•支持用户词典扩展定义

•下载地址:https://github.com/medcl/elasticsearch-analysis-ik/archive/v7.4.0.zip

6.3-ik分词器使用

IK分词器有两种分词模式:ik_max_word和ik_smart模式

1、ik_max_word

# 方式一ik_max_word
# 会将文本做最细粒度的拆分,比如会将“乒乓球明年总冠军”拆分为“乒乓球、乒乓、球、明年、总冠军、冠军。
GET /_analyze
{
   
  "analyzer": "ik_max_word",
  "text": "乒乓球明年总冠军"
}

ik_max_word分词器执行如下:

{
   
  
  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值