Jcseg分词器中英文混合词保留完整分词

本文介绍了Jcseg分词器在处理中英文混合词如“O型”时遇到的问题,即英文部分被忽略。通过分析发现,这是由于停止词过滤功能导致的。解决方案包括编辑lex-ecmixed.lex词库文件添加混合词和关闭或调整jcseg.properties中的停止词过滤设置。
摘要由CSDN通过智能技术生成

        Jcseg是基于mmseg算法的一个轻量级中文分词器,同时集成了关键字提取,关键短语提取,关键句子提取和文章自动摘要等功能,并且提供了一个基于Jetty的web服务器,方便各大语言直接http调用,同时提供了最新版本的lucene, solr, elasticsearch的分词接口Jcseg自带了一个 jcseg.properties文件用于快速配置而得到适合不同场合的分词应用,例如:最大匹配词长,是否开启中文人名识别,是否追加拼音,是否追加同义词等

        最近项目中在优化Solr搜索,使用Jcseg分词器进行分词时遇到一个问题,中英文混合分词如“O型”,被分成了“型”,直接把“O“去掉了,这并不是想要的效果,也没有找到相关的博客,特此记录一下

        查阅资料之后我找到了分词器词库的目录,即jcseg.properties中的lexicon.path配置项,该目录下存放各种各种类型的lex后缀的分词文件

        lex-ecmixed.lex文件,顾名思义,为维护英中文混合词的词库文件,在文件中加入“O型”,重新加载分词器即可,但是这种方案太死板,能暂时解决“O型”的问题,但如果以后又来一个“L类”,“B型”呢?并不是长久之计,所以我们要找到“O”被移除的根本原因。

        这就要说到Jcseg的停止词过滤功能了,词库目录下的lex-stop

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值