语言模型之平滑技术

最新推荐文章于 2024-04-18 09:44:33 发布

zhuanse

最新推荐文章于 2024-04-18 09:44:33 发布

阅读量1.6k

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/abc781cba/article/details/80226105

版权

注：本文主要介绍几种方法的个人理解，完全是白话，大神就不要来了。

平滑技术核心思想就是“劫富济贫”，主要是解决数据稀疏（sparsity）问题，主要技术有三：discount，backoff，插值。

一 discount

1 add one (add x)

假设此表包含n个词，就在分子和分母分别加上1和n

2 good turning

假设N元语法出现r次，那就它就按照比例缩小次数，溢出的概率根据开发集中未出现的情况平均分。

3 katz moothing

假设N元语法出现r次，那就它就按照比例缩小次数，溢出的概率根据(N-1)元的比重来分配。这里引入“利用低阶的语言模型概率来推算高阶的未出现的语言模型的概率”的思想，这可以通过迭代来实现。

二 back off

kneser-Ney

它采用了绝对减值法，就是对所有出现的n元语法模型减去一个固定的数，然后再按照(n-1)元的语法模型的概率分配未出现的n元语法模型。

三插值

就是将上述训练好的模型进行一个插值，插值系数之和为一，需要根据开发集进行调整（tuning）

以上就是所要讲的内容，当然上述三种分类不一定正确，难免牵强，现实当中往往是结合实用的，希望给后来人一点参考。

参考文献：http://blog.sina.com.cn/s/blog_6962921f0100q8bd.html

http://people.csail.mit.edu/regina/6864/lec2-2.pdf

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
语言模型之平滑技术

注：本文主要介绍几种方法的个人理解，完全是白话，大神就不要来了。平滑技术核心思想就是“劫富济贫”，主要是解决数据稀疏（sparsity）问题，主要技术有三：discount，backoff，插值。一 discount1 add one (add x)假设此表包含n个词，就在分子和分母分别加上1和n2 good turning假设N元语法出现r次，那就它就按照比例缩小次数，溢出的概率根据开发集中未出...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。