与自定义词典分词_【201110】ElasticSearch实现中文分词查询

最新推荐文章于 2023-12-14 22:22:00 发布

江楠悠悠

最新推荐文章于 2023-12-14 22:22:00 发布

阅读量262

点赞数

文章标签：与自定义词典分词

本文链接：https://blog.csdn.net/weixin_29710403/article/details/112674614

版权

介绍

今天福哥给大家介绍一下ElasticSearch的分词查询的使用技巧，通过分词查询可以避免不是很匹配的文档出现在结果当中。

举例：如果查询“北京”一般情况下都是想查询关于“北京”这个地区的相关信息，但是如果没有进行分词之前，“北”和“京”会作为单独的查询匹配项和文档中的字段进行匹配，那查询出来的结果就可想而知了。

为了解决这个问题，我们可以告诉ES那些词是一个整体，不要给我们拆开来单独匹配。

搜索关键词分析

可以通过analyze查看搜索关键词的分析结果

POST /_analyze{  "text": "福哥"}

结果是“福”和“哥”是分开的

{  "tokens": [    {      "token": "福",      "start_offset": 0,      "end_offset": 1,      "type": "",      "position": 0    },    {      "token": "哥",      "start_offset": 1,      "end_offset": 2,      "type": "",      "position": 1    }  ]}

中文分析器

中文分析器elasticsearch-analysis-ik是一个ES的插件，使用这个插件就可以设置分词词条，然后设置ES的索引的分析器为ik_max_word或者ik_smart，就可以实现分词匹配的效果了。

下载

github官方网址

https://github.com/medcl/elasticsearch-analysis-ik/releases

福哥的ES的版本是6.5.2，所以下载6.5.2版本的插件

分词插件的版本必须和ElasticSearch的版本一致

wget https://github.com/medcl/elasticsearch-analysis-ik/releases/download/v6.5.2/elasticsearch-analysis-ik-6.5.2.zip

安装

使用安装ES的插件

/tongfu.net/env/elasticsearch-6.5.2/bin/elasticsearch-plugin install file:///packages/elasticsearch-analysis-ik-6.5.2.zip

测试

使用ik_max_word分析器拆分关键词

POST /_analyze{  "analyzer": "ik_max_word",  "text": "北京福哥"}

使用ik_smart分析器拆分关键词

POST /_analyze{  "analyzer": "ik_smart",  "text": "北京福哥"}

配置

创建索引

如果要给现有的索引的字段设置分析器的话，需要重新建立索引的。因为索引字段的映射(mapping)是不能修改的，只能在重建索引的时候一次性的设置好。

使用下面的命令创建索引“tfse”，建立两个字段的映射，并指定它们的类型和分析器。

注意事项：

根节点是“mappings”不是“mapping”

根节点“mappings”下面的节点要和索引名称一样

PUT /tfse{  "mappings": {    "tfse": {      "properties": {        "mTitle": {          "type": "text",          "analyzer": "ik_smart",          "search_analyzer": "ik_smart"        },        "mContent": {          "type": "text",          "analyzer": "ik_smart",          "search_analyzer": "ik_smart"        }      }    }  }}

写入数据

接下来就可以向索引“tfse”写入数据了，这里就不再详述了，大家都会的。

查询测试

现在我们查询ES的新索引“tfse”会发现“北京”不会再被当成两个单独的词进行匹配了，这样查询出来的结果就会比较准确了。