N元语言模型的训练方法

最新推荐文章于 2024-08-30 11:36:15 发布

MSPinyin

最新推荐文章于 2024-08-30 11:36:15 发布

阅读量1.7w

点赞数

分类专栏：微软拼音输入法开发工程师专栏文章标签：语言算法优化工具微软 c

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/MSPinyin/article/details/6141556

版权

本文由微软拼音开发工程师Bright介绍N-gram语言模型的训练方法，包括有监督和无监督的方式。在有监督训练中，使用最大似然估计；无监督训练则通过EM算法迭代调整参数。在无监督训练的E-step和M-step中，利用前向-后向动态规划算法高效统计n元对。

摘要由CSDN通过智能技术生成

------------------------------------------------------------------
大家好，我是Bright，微软拼音的开发工程师。我之前介绍了语言模型的基本概念，本文介绍一下N-gram语言模型的训练方法。
------------------------------------------------------------------

模型的训练也称为模型的参数估计，参数可以用下式估计：

(1)

这样的模型是以词语为基本单位，但是汉语文本没有空格分隔，因此需要先对汉语文本进行分词处理，再在分好词的语料上统计n元对的出现次数。

语言模型的质量依赖于分词语料的质量。为了获得良好的分词语料，可以先用分词工具对未分词语料（生语料）进行自动化的分词标注，然后对其中可能分词错误的地方进行人工校对，最后得到的语料称为熟语料。根据是否需要熟语料，训练方法分为有监督和无监督的两种方式。

有监督的训练方法

有监督的训练方法比较简单。先统计n元对的出现次数，然后采用最大似然估计的方法对参数进行估计（如公式1）。

无监督的训练方法

无监督的训练方法需要适当规模的生语料和词表，然后采用EM算法迭代地对语言模型的参数进行调整。EM 算法是 Dempster Laind Rubin 于 1977 年提出的求参数极大似然估计的一种方法，它可以从非完整数据集中对参数进行估计，是一种非常简单实用的学习算法。

假设我们有一组语料，其表示为，词表。我们期望将语料分成最理想的形式

最低0.47元/天解锁文章

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
2
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。