输入法
hxxiaopei
这个作者很懒,什么都没留下…
展开
-
输入法技术
做了2年的输入法,从无到有,一手辛辛苦苦的搞起来,虽然目前用户规模不大,不过从技术上来讲,趟过无数雷,自我感觉针对输入法的基本技术还是有一定的了解,当然还有很多自己搞不定的问题,接下来share一下自己的一些心得,希望有经验的朋友指正,也让大家了解一下输入法是什么。 具体会按照下面几个部分方向来写: 1.模型训练,包括模型选择、pruning等技术,也包括语料选取以及评价方法 2.模型存储以原创 2012-03-02 12:24:32 · 1999 阅读 · 2 评论 -
【输入法技术】模型选择
影响输入法体验的原因有很多,整体来看,我理解有两个,一个是候选词的质量,另一个是整体的交互设计。 候选词质量高,意味着用户输入拼音后,用户期望的结果可以放在第一位置,提高输入速度 如果细分一下,有3类情况: 1.输入句子(长/短),比如,今天真是个好天气 2.输入词,比如今天/天气/我们等 3.其他情况,比如:英文、人名 我们碰到的问题,focus在1,2上面,可以把2归在1上面,原创 2012-03-04 18:25:55 · 1742 阅读 · 0 评论 -
输入法之模型剪枝一(基于熵的剪枝)
prunning,剪枝,顾名思义就是减掉那些不重要的。 从理论上来讲,剪枝达到的效果就是剪枝后的q和剪枝前的 p 最大化相似,有两种算法 entroy-based以及rank-based。 针对model,使用相对熵来刻画D(q||p) 来刻画,保证两个model的熵差别最小,就是entropy-based。如果使用rank(p|q)来描述,保证整个model的rank差别最小原创 2014-06-25 17:15:58 · 7724 阅读 · 0 评论 -
输入法之核心词典构建
拼音输入法输出的候选分成两个部分,系统词以及短句(智能组词),智能组词是通过model以及解码弄出来的,后续再说。 系统词就是那些常用的词(词组)收录到词典中,用户的输入和词典中的词match时,直接吐出来,而不需要解码获得。 系统词以及对应的rank(score)对输入法的体验很大,毕竟大多数用户还是继续短词输入。 系统词包含几个部分: 1.基础词 2.高频短串 3.原创 2014-06-10 14:26:10 · 8125 阅读 · 0 评论 -
输入法之语料选择
影响输入法体验的有两块,候选命中以及视觉交互,视觉交互就是看到的键盘以及用户的使用的方便程度,尤其是在手机输入法中,键盘布局以及一些默认设置等细节对体验影响很大。候选命中就是指用户输入拼音时,能否把用户的想要的东西放在第一位显示处理。 我们重点关注候选命中,UI是设计师的事情:) 影响候选命中因素很多,比如模型选择、剪枝策略等,其中决定候选命上限,也就是天花板的绝对是 训练预料,没有之原创 2014-06-09 14:22:27 · 8407 阅读 · 0 评论