输入法之语料选择

输入法体验关键在于候选命中和视觉交互。本文聚焦候选命中,强调训练语料的质量直接影响模型效果。聊天场景是主要输入法使用场景,全网网页作为语料能提供自然的场景配比。尝试用特定场景语料如博客改善效果,但实际不如全网网页语料。去噪处理和适量场景补充能提升模型性能。
摘要由CSDN通过智能技术生成
影响输入法体验的有两块,候选命中以及视觉交互,视觉交互就是看到的键盘以及用户的使用的方便程度,尤其是在手机输入法中,键盘布局以及一些默认设置等细节对体验影响很大。候选命中就是指用户输入拼音时,能否把用户的想要的东西放在第一位显示处理。
我们重点关注候选命中,UI是设计师的事情:)

影响候选命中因素很多,比如模型选择、剪枝策略等,其中决定候选命上限,也就是天花板的绝对是 训练预料,没有之一,后续的各种tricy都是为了逼近这个上限。

选择的靠谱的语料,事半功倍。

如何选择语料呢? 谈到语料,就需要明确下输入法的使用场景,所谓场景,就是谁来使用。
比如使用QQ时输入聊天场景,编辑新闻时输入正文场景,写论文、医学书籍、写blog等等,都属于不同的场景。
正常来说,所有的场景都需要,我们指的是最大化解决那个场景的问题。

无论是PC还是手机,大家面对的大都是聊天场景,尤其是手机输入法。
如果我们有一个T规模的聊天语料,比如QQ或者短信,很多事情可以简化。不过这个难度很大,很难获取到。

做过了两种尝试:
1.使用互联网网页,随机抽取1T左右的网页作为训练预料
2.对互联网网页分类,新闻、blog、电商等,按照场景配比,比如使用blog语料来刻画聊天语料。

原以为#2的效果会很好,最后对比起来,#2的效果在对比测试集合上比#1差了10%.

最后分析了一下,全网网页虽然是大杂烩,但是某种程度上是天然的语料配比,用户需要的多的,语料自然就多。人工无论怎么做,都是有偏差的。

和一些朋友沟通下,大家一般都是使用全网网页来做的。
不过如果想增加在某个场景的效果,可以认为增加一些语料,比如加入旺旺聊天语料可以增加电商方面的沟通体验。

语料确定后,需要去噪音,训练过程是无监督的,对噪音不敏感,特殊的需要把重复的网页做一下过滤,比如一些网页,被无数网页转载,会加大某些特征出现频度,导致model偏差

基本上模型就ok,在模型训练时,根据model需求,做一些特殊处理。


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值