gumbel-softmax trick

Reza.

已于 2022-12-30 05:02:35 修改

阅读量1k

点赞数

分类专栏：深度学习文章标签：深度学习

于 2021-12-07 15:45:49 首次发布

原文链接：https://zhuanlan.zhihu.com/p/144140006

版权

深度学习专栏收录该内容

83 篇文章

订阅专栏

VAE和GAN里面训练的时候常用的技巧，主要是为了解决那种预测是"hard"，即输出是一个one-hot的决策时，没有办法直接计算后续损失的情况。而使用softmax强制其输出为概率分布的话，虽然可以计算后续损失，但是其本质上还是argmax的含义。为了能够在模型决策训练的过程中引入一定的随机性(个人理解为决策的soft程度，而不是单纯的hard)，尤其是在Reinforce Learning里面，常用一个trick就是gumbel-softmax。其核心思想是利用gumbel分布进行采样，增加模型决策的随机性，使其决策空间更加平滑，同时该采样过程不在计算图中，因此后续求导依然可以进行。

具体而言，详见该博客：
Gumbel-Softmax Trick

该博客中，最关键的一句解释：“所以需要一种方法不仅选出动作，而且遵从概率的含义。而这就是gumbel-softmax所要解决的问题。”

此处“动作”指的就是最终的one-hot决策，而动作要遵从的“概率”指的就是gumbel distribution。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。