N元语言模型的解码算法

最新推荐文章于 2024-04-26 19:08:26 发布

MSPinyin

最新推荐文章于 2024-04-26 19:08:26 发布

阅读量3.1w

点赞数

分类专栏：微软拼音输入法开发工程师专栏文章标签：语言算法网格输入法微软 dos

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/mspinyin/article/details/6213447

版权

本文由微软拼音输入法的软件开发工程师Bright撰写，介绍了N元语言模型的解码算法，这是语句级输入法的关键。解码算法用于从众多的拼音转换结果中找出最符合语言规律的词语序列，即具有最大概率的转换结果。通过二元语言模型举例，阐述了如何构建词语网格并进行解码，实际应用中还需要考虑音节切分歧义、剪枝等复杂因素。

摘要由CSDN通过智能技术生成

------------------------------------------------------------------

大家好，我是Bright，微软拼音的软件开发工程师。我之前介绍了N元语言模型的训练方法，本文继续介绍N元语言模型的解码算法。

------------------------------------------------------------------

N元语言模型的解码（Decoding）算法是微软拼音输入法的核心算法，也是当年哈工大王晓龙教授提出的语句级输入法的精髓。那么为什么需要解码算法呢？先举个拼音输入的例子：

对于拼音序列：pin yin shu ru fa hen hao yong

它有很多种转换结果，如pin可以转换成“拼”、“品”、“频”、“聘”等，yin可以转换成“音”、“因”、“引”、“印”等，shu可以转换成“输”、“树”、“属”、“数”等。

[背景知识]：简体中文大约有400个合法的拼音，GBK汉字大约有18000个汉字，那么平均每个拼音对应45个汉字。

由于每个拼音都有很多个转换结果，那么对于上面的拼音序列（8个拼音）约有45^8种转换结果，我们希望给出一个对用户来说最好的转换结果。

说到“最好”，可能有些歧义，因为对用户A好的转换结果可能对用户B就不好。这里说的最好是说最符合语言规律、最符号语言现象的结果。在N元语言模型的理论框架下，“最好”的结果就是具有最大概率的转换结果

最低0.47元/天解锁文章

关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
11
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 11

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。