八、ElasticSearch——Analyzer(分词器)

**1 Analyzer **
Analyzer
在ES中一个Analyzer 由下面三种组件组合而成:
(1)character filter :字符过滤器,对文本进行字符过滤处理,如处理文本中的html标签字符。处理完后再交给tokenizer进行分词。一个analyzer中可包含0个或多个字符过滤器,多个按配置顺序依次进行处理。
(2) tokenizer:分词器,对文本进行分词。一个analyzer必需且只可包含一个tokenizer。
(3) token filter:词项过滤器,对tokenizer分出的词进行过滤处理。如转小写、停用词处理、同义词处理。一个analyzer可包含0个或多个词项过滤器,按配置顺序进行过滤。

测试分词器
POST _analyze
{
“analyzer”: “whitespace”,
“text”: “The quick brown fox.”
}

使用分词器之后,停用词the被过滤掉了

在这里插入图片描述

position和offset
position位置
offset分词的偏移量

2 内建的character filter
一共3种
1)HTML Strip Character Filter
html_strip :过滤html标签,解码HTML entities like &.
2) Mapping Character Filter
mapping :用指定的字符串替换文本中的某字符串。
3)Pattern Replace Character Filter
pattern_replace :进行正则表达式替换。

(1)测试:HTML Strip Character Filter

POST _analyze
{
“tokenizer”: “keyword”,
“char_filter”: [ “html_strip” ],
“text”: “

I’m so happy!


}

测试结果如下:过滤掉了html标签

{
  "tokens": [
    {
      "token": """

I'm so happy!

""",
      "start_offset": 0,
      "end_offset": 32,
      "type": "word",
      "position": 0
    }
  ]
}

(2)HTML Strip Character Filter
在索引中配置:
PUT my_index
{
“settings”: {
“analysis”: {
“analyzer”: {
“my_analyzer”: {
“tokenizer”: “keyword”,
“char_filter”: [“my_char_filter”]
}
},
“char_filter”: {
“my_char_filter”: {
“type”: “html_strip”,
“escaped_tags”: [“b”]
}
}
}
}
}

测试:

POST my_index/_analyze
{
“analyzer”: “my_analyzer”,
“text”: “

I’m so happy!


}

escaped_tags 用来指定例外的标签。
如果没有例外标签需配置,则不需要在此进行客户化定义,在上面的my_analyzer中直接使用
html_strip

(3)Mapping character filter
参考文档
https://www.elastic.co/guide/en/elasticsearch/reference/current/analysis-mapping-charfilter.html

(4)Pattern Replace Character Filter
参考文档
https://www.elastic.co/guide/en/elasticsearch/reference/current/analysis-pattern-replace-charfilter.html

3 内建的Tokenizer

== Standard Tokenizer==
Letter Tokenizer
Lowercase Tokenizer
Whitespace Tokenizer
UAX URL Email Tokenizer
Classic Tokenizer
Thai Tokenizer
NGram Tokenizer

Edge NGram Tokenizer

== Keyword Tokenizer==
Pattern Tokenizer
Simple Pattern Tokenizer
Simple Pattern Split Tokenizer
Path Hierarchy Tokenizer

https://www.elastic.co/guide/en/elasticsearch/reference/current/analysis-tokenizers.html

集成的中文分词器Ikanalyzer中提供的tokenizer:ik_smart 、 ik_max_word

测试tokenizer

POST _analyze
{
“tokenizer”: “standard”,
“text”: “张三说的确实在理”
}

POST _analyze
{
“tokenizer”: “ik_smart”,
“text”: “张三说的确实在理”
}

4 内建的Token Filter

ES中内建了很多Token filter ,详细了解:https://www.elastic.co/guide/en/elasticsearch/reference/current/analysis-tokenizers.html
(1) Lowercase Token Filter :lowercase 转小写
(2) Stop Token Filter :stop 停用词过滤器
(3)Synonym Token Filter: synonym 同义词过滤器

说明:中文分词器Ikanalyzer中自带有停用词过滤功能。而内置的分词器需要配置停用词过滤器
Synonym Token Filter 同义词过滤器

PUT /test_index
{
“settings”: {
“index” : {
“analysis” : {
“analyzer” : {
“my_ik_synonym” : {
“tokenizer” : “ik_smart”,
“filter” : [“synonym”] 引用
}
},
“filter” : { 具体声明
“synonym” : {
“type” : “synonym”,
“synonyms_path” : “analysis/synonym.txt” synonyms_path:指定同义词文件(相对config的位置)
}
}
}
}
}
}
(4)同义词定义格式
ES同义词格式支持 solr、 WordNet 两种格式。

在analysis/synonym.txt中用solr格式定义如下同义词,文件一定要UTF-8编码,一行一类同义词,=> 表示标准化为

举个例子
张三,李四
电饭煲,电饭锅 => 电饭煲
电脑 => 计算机,computer

测试:
POST test_index/_analyze
{
“analyzer”: “my_ik_synonym”,
“text”: “张三说的确实在理”
}

POST test_index/_analyze
{
“analyzer”: “my_ik_synonym”,
“text”: “我想买个电饭锅和一个电脑”
}
通过例子的结果了解同义词的处理行为

内建的Analyzer
Standard Analyzer
Simple Analyzer
Whitespace Analyzer
Stop Analyzer
Keyword Analyzer
Pattern Analyzer
Language Analyzers
Fingerprint Analyzer

https://www.elastic.co/guide/en/elasticsearch/reference/current/analysis-analyzers.html

集成的中文分词器Ikanalyzer中提供的Analyzer:ik_smart 、 ik_max_word

内建的和集成的analyzer可以直接使用。如果它们不能满足我们的需要,则我们可自己组合字符过滤器、分词器、词项过滤器来定义自定义的analyzer

5 自定义 Analyzer
zero or more character filters
a tokenizer
zero or more token filters.

PUT my_index8
{
“settings”: {
“analysis”: {
“analyzer”: {
“my_ik_analyzer”: {
“type”: “custom”,
“tokenizer”: “ik_smart”,
“char_filter”: [
“html_strip”
],
“filter”: [
“synonym”
]
}
},
“filter”: {
“synonym”: {
“type”: “synonym”,
“synonyms_path”: “analysis/synonym.txt”
}
} } }}

配置参数:
在这里插入图片描述
(1)为字段指定分词器

PUT my_index8/_mapping/_doc
{
“properties”: {
“title”: {
“type”: “text”,
“analyzer”: “my_ik_analyzer”
}
}
}

PUT my_index8/_doc/1
{
“title”: “张三说的确实在理”
}

GET /my_index8/_search
{
“query”: {
“term”: {
“title”: “张三”
}
}
}

PUT my_index8/_mapping/_doc
{
“properties”: {
“title”: {
“type”: “text”,
“analyzer”: “my_ik_analyzer”,
“search_analyzer”: “other_analyzer”
}
}
}

如果该字段的查询需要使用不同的analyzer

(2)为索引定义个default分词器

在这里插入图片描述
新增文档记录
PUT my_index10/_doc/1
{
“title”: “张三说的确实在理”
}

查询
GET /my_index10/_search
{
“query”: {
“term”: {
“title”: “张三”
}
}
}

6 Analyzer的使用顺序

我们可以为每个查询、每个字段、每个索引指定分词器。

在索引阶段ES将按如下顺序来选用分词:mapping–settings–standard analyzer
(1)首先选用字段mapping定义中指定的analyzer
(2)字段定义中没有指定analyzer,则选用 index settings中定义的名字为default 的analyzer。
(3)如index setting中没有定义default分词器,则使用 standard analyzer.

查询阶段ES将按如下顺序来选用分词:
The analyzer defined in a full-text query.
The search_analyzer defined in the field mapping.
The analyzer defined in the field mapping.
An analyzer named default_search in the index settings.
An analyzer named default in the index settings.
The standard analyzer.

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值