Elasticserach 自定义分词器

最新推荐文章于 2024-05-15 05:59:27 发布

AI掘金

最新推荐文章于 2024-05-15 05:59:27 发布

阅读量501

点赞数

分类专栏： Elastic 文章标签： ES 自定义分词器 ES Filter ES tokenizer ES tokenfilter elasticsearch

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_36918149/article/details/104450925

版权

Elastic 专栏收录该内容

21 篇文章 0 订阅

订阅专栏

1）环境准备

启动Elasticsearch https://blog.csdn.net/qq_36918149/article/details/104221934
启动Kinbana https://blog.csdn.net/qq_36918149/article/details/104224625

2）Character Filter

在这里插入图片描述
演示一：
#去除html标签

POST _analyze
{
  "tokenizer":"keyword",
  "char_filter":["html_strip"],
  "text": "<b>hello world</b>"
}

结果，html标签已经被去除
在这里插入图片描述
演示二：
#使用char filter进行替换

POST _analyze
{
  "tokenizer": "standard",
  "char_filter": [
      {
        "type" : "mapping",
        "mappings" : [ "- => _"]
      }
    ],
  "text": "123-456, I-test! test-990 650-555-1234"
}

结果显示，“-” 已替换为“_”，并进行了分词
在这里插入图片描述

3）Tokenizer

在这里插入图片描述
演示：
#按路径分词

POST _analyze
{
  "tokenizer":"path_hierarchy",
  "text":"/user/ymruan/a/b/c/d/e"
}

结果：路径被依次进行了分词
在这里插入图片描述

4）Token Filter
在这里插入图片描述
演示一：

# whitespace与stop
GET _analyze
{
  "tokenizer": "whitespace",
  "filter": ["stop","snowball"],
  "text": ["The rain in Spain falls mainly on the plain."]
}

结果:连接词被去掉以后的分词结果
在这里插入图片描述

4）总结

过滤器过滤顺序：char filter - >tokenizer -> token filter。
本章节在实际应用中还需要，仔细看一下api文档。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

AI掘金 CSDN认证博客专家 CSDN认证企业博客

码龄8年

137: 原创

5万+: 周排名

1万+: 总排名

23万+: 访问

: 等级

3664: 积分

127: 粉丝

224: 获赞

23: 评论

479: 收藏

私信

关注

热门文章

分类专栏

最新评论

Ai知识图谱
CSDN-Ada助手: 推荐 Python入门技能树：https://edu.csdn.net/skill/python?utm_source=AI_act_python
生产环境 InputStream.available() = 0 导致的一次血案
执笔录今夕: 这样写会有问题吧，直接read会提示java.net.SocketException: Connection reset
Kafka消费者组是什么？
Fredyue2006: 1+2+3 = 6，总共6分区
生产环境 InputStream.available() = 0 导致的一次血案
比特灵: available我在串口、USB、蓝牙等信息通讯时常用，但是偶尔在网络环境下用了一次发现确实不可靠，后修改为： [code=java] int canRead; byte[] buffer = new byte[1024]; try { while ((canRead = is.read(buffer)) != -1) { if (canRead == 0) { Log.d(tag, "读不到数据"); continue; } //Log.d(tag, "大小：" + canRead); outputStream.write(buffer, 0, canRead); } Log.d(tag, "写入完成"); } catch (IOException e) { e.printStackTrace(); } [/code]
生产环境 InputStream.available() = 0 导致的一次血案
function_HY: 楼主，你这样用是不对的，利用is.read();读取之后，流中的数据一定是不完整的，你后面代码读出的数据一定是不完整的

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。