目录
-
概述
-
环境准备
-
什么是分词
- 分词目的
- 分词器
-
彩蛋
概述
关于elasticsearch教程写了关于安装和安装踩坑记两篇博文, 现在就来写点项目中使用中文分词器的历程。
本文旨在分局项目es中使用中文分词器的心得,对es分词器做初步讲解,如有错误和不当之处,欢迎批评指正。
环境准备
- 全新最小化安装的centos 7.5
- elasticsearch 6.4.0
什么是分词
分词这个词表明的意思已经很明了,就是将一句话分成多个词语, 比如: “我爱祖国” 会被拆分为 【我,爱,祖国】。
那么为什么需要拆分成这样呢? 这就要从全文检索数据存储结构说起,深入的存储结构我就不深入讲解了,因为我也不知道具体的[/奸笑]。正式开始,es内部基于apache lucene做了进一步的封装,如果直接使用lucene做全文检索,相信用过的前辈们顿感头顶凉意,有了es封装,小辈们至少可以省一瓶霸王洗发水。
分词的目的
es可以从千万级别数据量快速检索出对应的文档,要归功于一个叫倒排索引的家伙, 通过词汇找到对应的文档,既然有倒排索引,那么同样出现了一个正向索引的东东,下面就来认识一下倒排索引
正向索引
先来说说正向索引,在搜索引擎中,每个文档(每条数据)