Jcseg分词器中英文混合词保留完整分词

最新推荐文章于 2023-04-18 12:44:35 发布

pandalovey

最新推荐文章于 2023-04-18 12:44:35 发布

阅读量947

点赞数

分类专栏： Java

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/pandalovey/article/details/100018715

版权

本文介绍了Jcseg分词器在处理中英文混合词如“O型”时遇到的问题，即英文部分被忽略。通过分析发现，这是由于停止词过滤功能导致的。解决方案包括编辑lex-ecmixed.lex词库文件添加混合词和关闭或调整jcseg.properties中的停止词过滤设置。

摘要由CSDN通过智能技术生成

Jcseg是基于mmseg算法的一个轻量级中文分词器，同时集成了关键字提取，关键短语提取，关键句子提取和文章自动摘要等功能，并且提供了一个基于Jetty的web服务器，方便各大语言直接http调用，同时提供了最新版本的lucene, solr, elasticsearch的分词接口Jcseg自带了一个 jcseg.properties文件用于快速配置而得到适合不同场合的分词应用，例如：最大匹配词长，是否开启中文人名识别，是否追加拼音，是否追加同义词等

最近项目中在优化Solr搜索，使用Jcseg分词器进行分词时遇到一个问题，中英文混合分词如“O型”，被分成了“型”，直接把“O“去掉了，这并不是想要的效果，也没有找到相关的博客，特此记录一下

查阅资料之后我找到了分词器词库的目录，即jcseg.properties中的lexicon.path配置项，该目录下存放各种各种类型的lex后缀的分词文件

lex-ecmixed.lex文件，顾名思义，为维护英中文混合词的词库文件，在文件中加入“O型”，重新加载分词器即可，但是这种方案太死板，能暂时解决“O型”的问题，但如果以后又来一个“L类”，“B型”呢？并不是长久之计，所以我们要找到“O”被移除的根本原因。

这就要说到Jcseg的停止词过滤功能了，词库目录下的lex-stop

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。