ES学习记录10.2——ES分析器3(标记过滤器)

 作为分析器三大组成部分的另一部分,标记过滤器(token filters)是非必要的。token filters从标记生成器tokenizer那里接受标记输入流,可以用来修改(如将术语转成小写)、删除(如移除段词)或添加(如同义词)token。ES提供给了很多内置的标记过滤器,这些标记过滤器可以在自定义的分析器中使用。

1. 标准标记过滤器(Standard Token Filter)

standard标记过滤器标准化使用标准标记生成器提取的标记。目前standard标记过滤器啥事儿都没干,如果需要在将来的版本中添加某些过滤功能,它仍然是占位符。

2. ASCII码折叠标记过滤器(ASCII Folding Token Filter)

 这标记过滤器名字翻译的怪怪的,asciifolding过滤器将ASCII码不在ASCII表前127内的字母、数字和Unicode符号转换为ASCII等效字符(如果存在的话)。比如:

curl -X PUT "localhost:9200/asciifold_example" -H 'Content-Type: application/json' -d'
{
   
    "settings" : {
   
        "analysis" : {
   
            "analyzer" : {
   
                "default" : {
   
                    "tokenizer" : "standard",
                    "filter" : ["standard", "asciifolding"]
                }
            }
        }
    }
}
'

asciifolding过滤器是可配置的,可接受的参数有:

  • preserve_original:表示是否保留原始标记以及输出折叠的标记,默认为false

下面是栗子:

curl -X PUT "localhost:9200/asciifold_example" -H 'Content-Type: application/json' -d'
{
   
    "settings" : {
   
        "analysis" : {
   
            "analyzer" : {
   
                "default" : {
   
                    "tokenizer" : 
  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值