变分算法-应用

最新推荐文章于 2024-07-22 21:16:57 发布

智元说车

最新推荐文章于 2024-07-22 21:16:57 发布

阅读量2.8k

点赞数 2

分类专栏：机器学习文章标签：机器学习算法贝叶斯

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u012771351/article/details/53098647

版权

机器学习专栏收录该内容

35 篇文章 4 订阅

订阅专栏

注：本文中所有公式和思路来自于邹博先生的《机器学习升级版》，我只是为了加深记忆和理解写的本文。

上一篇文章算是比较详细的介绍了变分算法，本篇文章将会介绍一下一些变分框架在其他模型上的应用。

变分贝叶斯：

变分不光可以推测隐变量，还可以估计参数本身，我们可以使用平均场方法，将后验概率写成参数各自分布的乘积，既得到变分贝叶斯(Variational Bayesian, VB)

高斯分布的变分贝叶斯：

我们使用变分贝叶斯推断一维高斯分布p(μ, σ2 | D)后验概率的参数，用λ来替代σ2的导数，又称λ为精度：

为了方便计算，使用共轭先验的形式：

我们可以看成是混合高斯分布GMM，因为高斯分布的均值的共轭先验分布仍然是高斯分布，方差的共轭先验分布式伽马分布。那么我们可以近似分解成：

目标函数

我们首先给定几个超参数a,b,κ，μ，那么则有：

将这几个分布带入目标函数：

既然得到上边的结果，接下来我们就要进行参数估计了，根据变分的思想，我们估计一个参数，是试用其他参数来进行求期望得到的，那么就先更新μ：

我们可以通过对比高斯分布的对数形式：

计算得到：

接着更新λ：

通过对比Gamma分布对数形式：

得到：

同时：

将结果带入公式，根据：

以及：

得到：

这就是更新过程，公式虽然多一点，都没啥新东西，比较简单。

变分总结

变分既能够推断隐变量，也能推断未知参数，是很有力的参数估计工具。难点在于推导复杂。

相对于采样，变分不容易计算但是效率很高。

平均场方法的变分推导，对离散和连续的隐变量都适用，在平均场方法的框架下，变分推导一次更新一个分布，其本质是坐标上升。

变分除了和贝叶斯结合得到VB，还可以和EM算法结合，得到VBEM，用于带隐变量和未知参数的估计，如GMM、LDA

到此变分算法就全部介绍完了，欢迎批评指正。

关注

2
点赞
踩
12

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

智元说车 CSDN认证博客专家 CSDN认证企业博客

码龄11年

34: 原创

24万+: 周排名

83万+: 总排名

12万+: 访问

: 等级

1653: 积分

64: 粉丝

67: 获赞

7: 评论

119: 收藏

私信

关注

热门文章

分类专栏

机器学习 35篇
linux 2篇
deep learning 1篇

最新评论

HMM之前向后向算法
weixin_46083434: 你好，非常感谢你的讲解让我可以把前向算法和后向算法结合起来理解，不过还有两个问题不是很明白，1. 单个状态的概率那个公式，分母P(o|lamda) 换成alphat(i)*betat(i)再对所有i（状态）求和，是因为生成观测序列o的总概率是t时刻下每个i（状态）可能的概率之和吗？ 2. 最后那个联合概率转换到最终结果不太明白，请问可以请教一下再具体一点的步骤吗？谢谢
LDA-隐狄利克雷分布-主题模型
leilei9406: 想请问下如果做短文拼接可以有哪些方法，我正在做一个短文本的LDA结果不是很好，可以请教下您吗？
变分算法
qq_36711371: 请问一下，P（x）和q（x）的距离公式中，α=1的时候，公式为什么会退化为KL(p||q)，α=1时，分母为0.
HMM之前向后向算法
Chester_ieee: 前后向概率的公式，i和t好像是写反了。
聚类之层次聚类与密度聚类
落入凡间的奥特曼: 你好，请问这个机器学习升级版是课程吗?

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。