elasticsearch概念,分词器介绍

es与关系型数据库之间的一些概念类比

集群,节点

Master-eligible nodes 和Master Node

Data Node & Coordinating Node

其它的节点类型

配置节点类型

分片

分片的设定

查看集群的健康状态

文档

create 一个文档

GET 

Index文档

Update文档

Bulk API 

 

批量读取-mget

批量查询

常见错误返回

倒排索引

正排与倒排索引

书的目录-正排

倒排索引

图书和搜索引擎的类比

图书:

1.正排索引-目录页

2.倒排索引-索引页

搜索引擎

1.正排索引-文档id到文档内容和单词的关联

2.倒排索引-单词到文档id的关系

倒排索引的核心组成

Analyzer

 

analysis——文本分析是把全文转换成一系列单词(term/token)的过程,也叫分词

analysis是通过Analyzer来实现的

    可使用Elasticsearch内置的分析器/或者定制化分析器

除了在数据写入时转换词条,匹配query语句时候也需要用相同的分析器对查询语句进行分析

Analyzer的组成

es内置的分词器

使用_analyzer API

通过三种方式查看analyzer是如何工作的

1.直接指定Analyzer进行测试

2.指定索引的字段进行测试

3.自定义分词进行测试

Standard Analyzer

1.默认的分词器

2.按词切分

3.小写处理

实验,在kibana开发工具界面查看其如何分词的

analyzer:指定哪种分词器

text: 要测试的文本

Simple Analyzer 

1.按照非字母切分,非字母的都被去除

2.小写字母

Whitespace Analyzer

1.按照空格切分

stop Analyzer

1.相比Simple Analyzer

多了stop filter 

   会把the a is 等修饰词语去除

Keyword Analyzer

1.不分词,直接将输入当一个term输出

Pattern Analyzer

1.通过正则表达式进行分词

2.默认是\W+,非字符的符号进行分隔

 Language Analyzer

中文分词

难点

ICU Analyzer 

1.需要安装plugin

   elasticsearch-plugin install analysis-icu

2.提供了Unicode的支持,更好的支持亚洲语言

更多的中文分词器

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
以下是ElasticSearch中的一些重要概念: 1. 索引(Index):ElasticSearch中的索引类似于数据库中的数据库,它是一组具有相同结构的文档的集合。 2. 文档(Document):ElasticSearch中的文档是JSON格式的数据记录,可以由多个字段组成。 3. 类型(Type):索引可以包含一个或多个类型,一种类型是一组具有类似结构的文档的集合。 4. 映射(Mapping):映射定义了文档中各个字段的数据类型、分词等属性。 5. 分片(Shard):ElasticSearch会将一个索引分成多个分片存储。分片可以分布在不同的节点上,这可以提高索引的可伸缩性和性能。 6. 副本(Replica):每个分片都可以有多个副本,副本用于实现数据的冗余和高可用性。 7. 查询(Query):ElasticSearch提供了丰富的查询语法,允许用户针对文档属性、全文搜索等条件进行查询。 8. 聚合(Aggregation):聚合可以对多个文档的属性进行计算和统计,例如计算最大、最小、平均值等。 9. 分词(Tokenizer):用于将文本分成若干个独立的单元,以便进行索引和搜索。 10. 过滤(Filter):用于对查询的结果进行过滤,比如对文档进行范围查询、布尔查询等。 11. 映射(Mapper):用于将数据从JSON格式转换为ElasticSearch内部数据结构。 12. 聚合(Aggregator):用于对文档属性进行聚合计算,例如计算平均值、最大、最小等。 13. 分词(Tokenization):将一段文本划分成单独的单词,以便进行索引和搜索。 14. 词干还原(Stemming):用于将词语还原成其原始形式,以便进行匹配和查询优化。 15. 相似度算法(Similarity):计算查询与文档之间的相似度,以便对查询结果进行排序。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

小卒曹阿瞒

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值