ES 分词学习总结

最新推荐文章于 2024-04-07 23:43:19 发布

VIP文章 m0_63156262

最新推荐文章于 2024-04-07 23:43:19 发布

阅读量901

点赞数

分类专栏： ES 文章标签： elasticsearch 学习搜索引擎

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_63156262/article/details/124747828

版权

今天搞一搞ES的分词，经过这两天的了解，ES就是个无关系型数据库，对于接触过有关系型数据库的我来说，就先这么理解吧，没问题。

如果没有分词这个硬性需求的要求，无关系型数据库可选的很多，所以啦，用ES就是用他的分词功能。

版本ES 8.2

语言 python

Elasticsearch之所以全文搜索很快，是因为采用了倒排索引，倒排索引的核心是分词。分词：就是把内容拆分为很多个词语，ES是把text格式的字段按照分词器进行分词并保存为索引的。

Elasticsearch分析器有几个概念：Analysis、Analyzer、Character filters、Tokenizer、Token filter。

Analysis（分析器）功能是把文本切分成词项（词项是倒排索引中的基本单位）。分析器的功能主要是通过分词器(Analyzer)来实现的。

Analyzer由三部分组成：字符过滤器（Character filters）、分词器（Tokenizer）和词元过滤器（Token filter）。每一个Analyzer有且只能有一个tokenizer。

Character filters：针对原始文本处理，例如去除html
Tokenizer：按照规则将文本切分为单词
Token Filter：将切分的单词进行加工，如单词小写、删除stopword、增加同

最低0.47元/天解锁文章

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
ES 分词学习总结

今天搞一搞ES的分词，经过这两天的了解，ES就是个无关系型数据库，对于接触过有关系型数据库的我来说，就先这么理解吧，没问题。如果没有分词这个硬性需求的要求，无关系型数据库可选的很多，所以啦，用ES就是用他的分词功能。版本ES 8.2语言 pythonElasticsearch之所以全文搜索很快，是因为采用了倒排索引，倒排索引的核心是分词。分词：就是把内容拆分为很多个词语，ES是把text格式的字段按照分词器进行分词并保存为索引的。Elasticsearch分析器有几个概念：Ana..
复制链接

扫一扫

专栏目录

m0_63156262 CSDN认证博客专家 CSDN认证企业博客

码龄3年

7: 原创

108万+: 周排名

74万+: 总排名

6843: 访问

: 等级

78: 积分

0: 粉丝

3: 获赞

4: 评论

4: 收藏

私信

关注

热门文章

分类专栏

javascript 1篇
ES 2篇

最新评论

elasticsearch 8.2 正常启动，es-head 连接不上
十三-_-: 改了改配置文件，就连上了，真怪
elasticsearch 8.2 正常启动，es-head 连接不上
十三-_-: 您好我的elasticsearch 8.0.0的，es-head也是连接不上，我访问elasticsearch是https，点击连接按键返回401
elasticsearch 8.2 正常启动，es-head 连接不上
十三-_-: 您好我的elasticsearch 8.0.0的，es-head也是连接不上，我访问elasticsearch是https，点击连接按键返回401

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。