Elasticsearch修改分词器以及自定义分词器

1、默认的分词器

standard

standard tokenizer:以单词边界进行切分
standard token filter:什么都不做
lowercase token filter:将所有字母转换为小写
stop token filer(默认被禁用):移除停用词,比如a the it等等

2、修改分词器的设置

启用english停用词token filter

PUT /my_index
{
“settings”: {
“analysis”: {
“analyzer”: {
“es_std”: {
“type”: “standard”,
“stopwords”: “english
}
}
}
}
}
在这里插入图片描述
GET /my_index/_analyze
{
“analyzer”: “standard”,
“text”: “a dog is in the house”
}
在这里插入图片描述
GET /my_index/_analyze
{
“analyzer”: “es_std”,
“text”:“a dog is in the house”
}
在这里插入图片描述
3、定制化自己的分词器

PUT /my_index
{
“settings”: {
“analysis”: {
“char_filter”: {
“&_to_and”: {
“type”: “mapping”,
“mappings”: ["&=> and"]
}
},
“filter”: {
“my_stopwords”: {
“type”: “stop”,
“stopwords”: [“the”, “a”]
}
},
“analyzer”: {
“my_analyzer”: {
“type”: “custom”,
“char_filter”: [“html_strip”, “&_to_and”],
“tokenizer”: “standard”,
“filter”: [“lowercase”, “my_stopwords”]
}
}
}
}
}
在这里插入图片描述
在这里插入图片描述
测试:
GET /my_index/_analyze
{
“text”: “tom&jerry are a friend in the house, , HAHA!!”,
“analyzer”: “my_analyzer”
}
在这里插入图片描述
在自己的type里要用到自己自定义的分词器下面语法
PUT /my_index/_mapping/my_type
{
“properties”: {
“content”: {
“type”: “text”,
“analyzer”: “my_analyzer”
}
}
}
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值