输入法之核心词典构建



拼音输入法输出的候选分成两个部分,系统词以及短句(智能组词),智能组词是通过model以及解码弄出来的,兴许再说。

系统词就是那些经常使用的词(词组)收录到词典中,用户的输入和词典中的词match时,直接吐出来,而不须要解码获得。

系统词以及相应的rank(score)对输入法的体验非常大,毕竟大多数用户还是继续短词输入。

系统词包括几个部分:
1.基础词
2.高频短串
3.细胞词库

当中基础词的比較复杂,也没有统一的方法。

一般的做法是:

1.对训练语料进行分词,然后取top 20-50w的词作为基础词,假设有知识库等分类的词典,能够依照类别。比方电商等能够引入一些词
2.获取第三方的核心词典。将大家都有的,或者基于一定的规范。选择出来。作为核心词典。

这个非常重要,可是基本上高频的都能被cover住,而中低频的就看产品需求了。

针对高频短串。比方“去哪里”等等,没有必要通过智能组词来解决。智能组词毕竟是有错误率的。
同一时候。加到核心词库里面后。在展现上比較方便控制。

毕竟智能组词一版智能选一个最好的。而系统词能够有多个。“去哪里”去那里“
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值