elasticsearch分词器学习

最新推荐文章于 2023-02-21 08:49:46 发布

mobile18600007978

最新推荐文章于 2023-02-21 08:49:46 发布

阅读量388

点赞数

分类专栏：搜索文章标签： elasticsearch

本文链接：https://blog.csdn.net/mobile18611667978/article/details/115325573

版权

搜索专栏收录该内容

1 篇文章 0 订阅

订阅专栏

1、es分词：分词是将文本转换成一系列单词的过程，也可以叫文本分析，在ES里面称为Analysis；

2、分词器：分词器是ES中专门处理分词的组件，英文为Analyzer，它的组成如下：
character filter：字符过滤器，对文本进行字符过滤处理，如处理文本中的html标签字符。处理完后再交给tokenizer进行分词。一个analyzer中可包含0个或多个字符过滤器，多个按配置顺序依次进行处理。
tokenizer：分词器，对文本进行分词（将原始文本按照一定规则切分为单词）。一个analyzer必需且只可包含一个tokenizer。
token filter：词项过滤器，对tokenizer分出的词进行过滤处理。如转小写、停用词处理、同义词处理。一个analyzer可包含0个或多个词项过滤器，按配置顺序进行过滤。
比较好的学习文章推荐

3、分词器调用顺序，在文档被加入索引前，经过3个步骤：
在这里插入图片描述
4、ElasticSearch配备了广泛的内置分词器，无需进一步配置即可用于任何索引：即如果不进行任何配置，分词的规则就是使用内置分词器的默认规则。当然了，也可以根据使用者的需求，在内置分词器的基础上对Character Filters、Tokenizer、Token Filters进行配置。

5、内置分词器

一、内置分词器：
Standard Analyzer
1、描述&特征：
（1）默认分词器，如果未指定，则使用该分词器。
（2）按词切分，支持多语言
（3）小写处理，它删除大多数标点符号、小写术语，并支持删除停止词。
2、组成：
（1）Tokenizer：Standard Tokenizer
（2）Token Filters：Lower Case Token Filter

例：POST _analyze
{
“analyzer”: “standard”,
“text”: “The 2 QUICK Brown-Foxes jumped over the lazy dog’s bone.”
}
上面的句子会产生下面的条件：
[ the, 2, quick, brown, foxes, jumped, over, the, lazy, dog’s, bone ]

Simple Analyzer
1、描述&特征：
（1）按照非字母切分，简单分词器在遇到不是字母的字符时将文本分解为术语
（2）小写处理，所有条款都是小写的。
2、组成：
（1）Tokenizer：Lower Case Tokenizer

POST _analyze
{
  "analyzer": "simple",
  "text": "The 2 QUICK Brown-Foxes jumped over the lazy dog's bone."
}

上面的句子会产生下面的条件：
[ the, quick, brown, foxes, jumped, over, the, lazy, dog, s, bone ]

Whitespace Analyzer
1、描述&特征
（1）空白字符作为分隔符，当遇到任何空白字符，空白分词器将文本分成术语。
2、组成：
（1）Tokenizer：Whitespace Tokenizer
例：

POST _analyze
{
  "analyzer": "whitespace",
  "text": "The 2 QUICK Brown-Foxes jumped over the lazy dog's bone."
}

上面的句子会产生下面的条件：
[ The, 2, QUICK, Brown-Foxes, jumped, over, the, lazy, dog’s, bone. ]

Stop Analyzer
1、描述&特征：
（1）类似于Simple Analyzer，但相比Simple Analyzer，支持删除停止字
（2）停用词指语气助词等修饰性词语，如the, an, 的，这等
2、组成：
（1）Tokenizer：Lower Case Tokenizer
（2）Token Filters：Stop Token Filter
例：

POST _analyze
{
  "analyzer": "stop",
  "text": "The 2 QUICK Brown-Foxes jumped over the lazy dog's bone."
}

上面的句子会产生下面的条件：
[ quick, brown, foxes, jumped, over, lazy, dog, s, bone ]

Keyword Analyzer
1、组成&特征：
（1）不分词，直接将输入作为一个单词输出，它接受给定的任何文本，并输出与单个术语完全相同的文本。
2、组成：
（1）Tokenizer：Keyword Tokenizer
例：

POST _analyze
{
  "analyzer": "keyword",
  "text": "The 2 QUICK Brown-Foxes jumped over the lazy dog's bone."
}

上面的句子会产生下面的条件：
[ The 2 QUICK Brown-Foxes jumped over the lazy dog’s bone. ]

Pattern Analyzer
模式分词器使用正则表达式将文本拆分为术语。
（1）通过正则表达式自定义分隔符
（2）默认是\W+，即非字词的符号作为分隔符

Language Analyzers
ElasticSearch提供许多语言特定的分析工具，如英语或法语。

Fingerprint Analyzer
指纹分词器是一种专业的指纹分词器，它可以创建一个指纹，用于重复检测。

Custom analyzers
如果您找不到适合您需要的分词器，您可以创建一个自定义分词器，它结合了适当的字符过滤器、记号赋予器和记号过滤器。

官网学习

mobile18600007978

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
elasticsearch分词器学习

1、es分词：分词是将文本转换成一系列单词的过程，也可以叫文本分析，在ES里面称为Analysis；2、分词器：分词器是ES中专门处理分词的组件，英文为Analyzer，它的组成如下：character filter：字符过滤器，对文本进行字符过滤处理，如处理文本中的html标签字符。处理完后再交给tokenizer进行分词。一个analyzer中可包含0个或多个字符过滤器，多个按配置顺序依次进行处理。tokenizer：分词器，对文本进行分词（将原始文本按照一定规则切分为单词）。一个analyzer
复制链接

扫一扫

专栏目录