【笔记】提高中文分词准确性和效率的方法

最近在学习中文分词方面的技术。读到 KTDictSeg 1.2组件的代码深受启发,作此笔记。
    在一切开始之前我们可以用正则表达式把文本中的一些特殊部分过滤出来,比如英文单词,一串数字,日期,Email,电话,邮编,尽可能的过滤,这样减少了实际进行分词的字符,而且准确性更高。
    个人想法:可以把所有拼音组合整理出来,用拼音来记录中文词语的组合,存到字典里,这样字典的尺寸就可以大幅减低。匹配时候把汉字转换为拼音进行匹配。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值