Gumbel-Max trick或者reparameterization

最新推荐文章于 2024-04-26 16:51:33 发布

VIP文章 Hungryof

最新推荐文章于 2024-04-26 16:51:33 发布

阅读量730

点赞数 1

分类专栏： Math 文章标签：深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Hungryof/article/details/106472341

版权

总说

下面主要摘自链接文章。

参考链接：
https://www.zhihu.com/question/62631725/answer/507940806

知道一个离散随机变量X的分布，

比如说p(X=1)=p1=0.2,p(X=2)=p2=0.3,p(X=3)=p2=0.5，然后我们想得到一些服从这个分布的离散的x的值。

但是，采样了之后都是离散值，没法对 p1, p2, p3求导，则神经网络中就没法 BP。这是因为，很多时候我们只是要x的期望，那么我们就是x=p1+2p2+3p3，x对p1,p2,p3的导数都很清楚，逆向传播很好实现。但是我们这里的需求是采样，要得到一些实际的x值，就像上面说的，不能求导的问题就来了。

思路：给出p1, p2, p3为参数的公式，比如 f(p1, p2, p3)，同时呢，这个f(p1,p2,p3)返回的是x的采样。 因此，这个方法也叫做 reparameterization，因为重新参数化了概率分布。

gumbel-max技巧：
在这里插入图片描述
其中 $g_i = -log(-log(u_i)), u_i \sim Uniform(0,1)$

最低0.47元/天解锁文章

关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
Gumbel-Max trick或者reparameterization

总说下面主要摘自链接文章。参考链接：https://www.zhihu.com/question/62631725/answer/507940806知道一个离散随机变量X的分布，比如说p(X=1)=p1=0.2,p(X=2)=p2=0.3,p(X=3)=p2=0.5，然后我们想得到一些服从这个分布的离散的x的值。但是，采样了之后都是离散值，没法对 p1, p2, p3求导，则神经网络中就没法 BP。这是因为，很多时候我们只是要x的期望，那么我们就是x=p1+2p2+3p3，x对p1,p2,p3的
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。