elasticsearch教程--Analysis篇-分词器

最新推荐文章于 2024-06-01 20:39:39 发布

java_龙

最新推荐文章于 2024-06-01 20:39:39 发布

阅读量2.1k

点赞数 1

分类专栏： elasticsearch elasticsearch教程 elasticsearch

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/an88411980/article/details/83344297

版权

目录

概述
环境准备
什么是分词
分词目的
分词器
彩蛋

概述

关于elasticsearch教程写了关于安装和安装踩坑记两篇博文, 现在就来写点项目中使用中文分词器的历程。

本文旨在分局项目es中使用中文分词器的心得,对es分词器做初步讲解,如有错误和不当之处,欢迎批评指正。

环境准备

全新最小化安装的centos 7.5
elasticsearch 6.4.0

什么是分词

分词这个词表明的意思已经很明了,就是将一句话分成多个词语, 比如: “我爱祖国” 会被拆分为【我，爱，祖国】。

那么为什么需要拆分成这样呢? 这就要从全文检索数据存储结构说起,深入的存储结构我就不深入讲解了,因为我也不知道具体的[/奸笑]。正式开始，es内部基于apache lucene做了进一步的封装,如果直接使用lucene做全文检索,相信用过的前辈们顿感头顶凉意,有了es封装,小辈们至少可以省一瓶霸王洗发水。

分词的目的

es可以从千万级别数据量快速检索出对应的文档,要归功于一个叫倒排索引的家伙, 通过词汇找到对应的文档，既然有倒排索引,那么同样出现了一个正向索引的东东,下面就来认识一下倒排索引

正向索引

先来说说正向索引,在搜索引擎中,每个文档(每条数据)

最低0.47元/天解锁文章

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
elasticsearch教程--Analysis篇-分词器

目录概述环境准备什么是分词分词目的分词器彩蛋概述关于elasticsearch教程写了关于安装和安装踩坑记两篇博文, 现在就来写点项目中使用中文分词器的历程。本文旨在分局项目es中使用中文分词器的心得,对es分词器做初步讲解,如有错误和不当之处,欢迎批评指正。环境准备全新最小化安装的centos 7.5 elast...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。