solr搭建电商搜索引擎05 - 中文分词器的配置

最新推荐文章于 2022-12-04 22:47:40 发布

sul818

最新推荐文章于 2022-12-04 22:47:40 发布

阅读量564

点赞数

分类专栏： solr

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_41970885/article/details/87357387

版权

在英文中，单词本身就是一个“词”，一句话是由若干个英文单词和分隔符（空格）组成。而在汉语中，一句话是由若干汉字组成，但是语意的理解是以词为单位，而词和词之间没有分隔符，这样就给中文的语意理解造成了一定障碍。比如“南京市长江大桥”既可以理解为“南京市/长江/大桥”，也可以理解为“南京/市长/江大桥”。如果没有中文分词器，solr就只能按照整句话或者单个字进行索引，这样不但效率低，而且也会影响搜索结果的相关性。因此，我们需要为solr配置中文分词器。

在前面配置schema文件时，我们为product_name和product_brand两个域设置了text_cn_index的文本域类型，采用的是solr.KeywordTokenizerFactory这个分词器，它会将整个文本作为一个Token。solr管理页面提供了分词测试功能，在后续配置分词器的过程中都可以使用这个接口进行测试：在solr管理页面选择core后点击“Analysis”，键入测试文本后选择FieldType为配置了分词器的product_name或product_brand，点击“Analyse Values”后可以看到结果。

（分词器修改成功后，通过Analyse Values可以看到修改后的分词效果，但是要重新上传搜索引擎数据才能更新索引！）

在这里插入图片描述

1 SmartCN分词器

SmartCN是solr内置的中文分词器，是基于北理工张华平博士团队开发的NLPIR平台的简化版。SmartCN不在solr的源码

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
solr搭建电商搜索引擎05 - 中文分词器的配置

在英文中，单词本身就是一个“词”，一句话是由若干个英文单词和分隔符（空格）组成。而在汉语中，一句话是由若干汉字组成，但是语意的理解是以词为单位，而词和词之间没有分隔符。比如“南京市长江大桥”既可以理解为“南京市/长江/大桥”，也可以理解为“南京/市长/江大桥”。如果没有中文分词器，solr就只能按照整句话或者单个字进行索引，这样不但效率低，而且也会影响搜索结果的相关性。因此，我们需要为solr配置...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。