elasticsearch分词器学习

1、es分词:分词是将文本转换成一系列单词的过程,也可以叫文本分析,在ES里面称为Analysis;

2、分词器:分词器是ES中专门处理分词的组件,英文为Analyzer,它的组成如下:
character filter:字符过滤器,对文本进行字符过滤处理,如处理文本中的html标签字符。处理完后再交给tokenizer进行分词。一个analyzer中可包含0个或多个字符过滤器,多个按配置顺序依次进行处理。
tokenizer:分词器,对文本进行分词(将原始文本按照一定规则切分为单词)。一个analyzer必需且只可包含一个tokenizer。
token filter:词项过滤器,对tokenizer分出的词进行过滤处理。如转小写、停用词处理、同义词处理。一个analyzer可包含0个或多个词项过滤器,按配置顺序进行过滤。
比较好的学习文章推荐

3、分词器调用顺序,在文档被加入索引前,经过3个步骤:
在这里插入图片描述
4、ElasticSearch配备了广泛的内置分词器,无需进一步配置即可用于任何索引:即如果不进行任何配置,分词的规则就是使用内置分词器的默认规则。当然了,也可以根据使用者的需求,在内置分词器的基础上对Character Filters、Tokenizer、Token Filters进行配置。

5、内置分词器

一、内置分词器:
Standard Analyzer
1、描述&特征:
(1)默认分词器,如果未指定,则使用该分词器。
(2)按词切分,支持多语言
(3)小写处理,它删除大多数标点符号、小写术语,并支持删除停止词。
2、组成:
(1)Tokenizer:Standard Tokenizer
(2)Token Filters:Lower Case Token Filter

例:POST _analyze
{
“analyzer”: “standard”,
“text”: “The 2 QUICK Brown-Foxes jumped over the lazy dog’s bone.”
}
上面的句子会产生下面的条件:
[ the, 2, quick, brown, foxes, jumped, over, the, lazy, dog’s, bone ]

Simple Analyzer
1、描述&特征:
(1)按照非字母切分,简单分词器在遇到不是字母的字符时将文本分解为术语
(2)小写处理,所有条款都是小写的。
2、组成:
(1)Tokenizer:Lower Case Tokenizer

POST _analyze
{
  "analyzer": "simple",
  "text": "The 2 QUICK Brown-Foxes jumped over the lazy dog's bone."
}

上面的句子会产生下面的条件:
[ the, quick, brown, foxes, jumped, over, the, lazy, dog, s, bone ]

Whitespace Analyzer
1、描述&特征
(1)空白字符作为分隔符,当遇到任何空白字符,空白分词器将文本分成术语。
2、组成:
(1)Tokenizer:Whitespace Tokenizer
例:

POST _analyze
{
  "analyzer": "whitespace",
  "text": "The 2 QUICK Brown-Foxes jumped over the lazy dog's bone."
}

上面的句子会产生下面的条件:
[ The, 2, QUICK, Brown-Foxes, jumped, over, the, lazy, dog’s, bone. ]

Stop Analyzer
1、描述&特征:
(1)类似于Simple Analyzer,但相比Simple Analyzer,支持删除停止字
(2)停用词指语气助词等修饰性词语,如the, an, 的, 这等
2、组成 :
(1)Tokenizer:Lower Case Tokenizer
(2)Token Filters:Stop Token Filter
例:

POST _analyze
{
  "analyzer": "stop",
  "text": "The 2 QUICK Brown-Foxes jumped over the lazy dog's bone."
}

上面的句子会产生下面的条件:
[ quick, brown, foxes, jumped, over, lazy, dog, s, bone ]

Keyword Analyzer
1、组成&特征:
(1)不分词,直接将输入作为一个单词输出,它接受给定的任何文本,并输出与单个术语完全相同的文本。
2、组成:
(1)Tokenizer:Keyword Tokenizer
例:

POST _analyze
{
  "analyzer": "keyword",
  "text": "The 2 QUICK Brown-Foxes jumped over the lazy dog's bone."
}

上面的句子会产生下面的条件:
[ The 2 QUICK Brown-Foxes jumped over the lazy dog’s bone. ]

Pattern Analyzer
模式分词器使用正则表达式将文本拆分为术语。
(1)通过正则表达式自定义分隔符
(2)默认是\W+,即非字词的符号作为分隔符

Language Analyzers
ElasticSearch提供许多语言特定的分析工具,如英语或法语。

Fingerprint Analyzer
指纹分词器是一种专业的指纹分词器,它可以创建一个指纹,用于重复检测。

Custom analyzers
如果您找不到适合您需要的分词器,您可以创建一个自定义分词器,它结合了适当的字符过滤器、记号赋予器和记号过滤器。

官网学习

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值