计算机应用技术拼音,搜狗拼音输入法研究 - 东北大学计算机应用技术研究所Web信息处理小组 - BlogJava...

输入法是基于词库的,词库中除了词条信息意外还有词频(也是最重要的了),词频表达用户使用词条概率,所以以概率解决问题较多。不管是包含多少种词库,词频信息必不可少,尽管有时还要对词频进行加权处理,如用户词库的词频肯定不会像系统词库的词频那么高,将二者进行排序时不能直接利用现有词频,要加权处理。尤其在智能组词那块,要形成短语,短句,就要找到频率最大的组句路径,会有计算公式。

将用户需求进行分解:尽量覆盖用户的词汇当然是好,但是随之会产生问题,词库的臃肿化和计算的代价加大,就要剔除掉不必要的词条信息了,可我们怎么知道哪些才是用户需要的呢,通过获取用户输入环境找到符合用户需求的最小词汇,才是王道。这样词库构成基本分为系统共有词库+辅助词库,布局合理,其中后者是动态加载和更新的,很智能化。

个性化:提高用户体验离不开个性化,适合大家的有可能适合自己,适合自己的不一定适合大家,个体之间存在差异,捕捉用户的使用习惯,找到个性部分很重要,用户词库,个性词等技术基本解决部分问题。引用原文的话:“记录用户输入的字词,学习某个用户适用的词汇;通过一段时间地不断学习,将词库逐渐收敛到某个用户输入的最佳状态,从而形成用户词库。通过动态调频,使其逐渐适应该用户,当用户是唯一时,很好地提升效率”,很到位。

策略问题:如搜狗输入法有很多用户,利用用户的信息,反过来又回馈给用户,这样反复过程,最终要达到一个收敛平衡的状态。

资源的重要性:搜狗宝贵的东西是语料库,各种想法实施的先决条件。

(by 韩艳景)

posted on 2009-05-11 08:42 wipt 阅读(1800) 评论(2)  编辑  收藏

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值