Gumbel-Softmax trick

Gumbel-Softmax是用于离散分布可导采样的方法,作为softmax的替代,它能生成近似的one-hot样本。通过引入Gumbel Max技巧并使用光滑近似,解决了arg max的不可导问题,尤其适用于神经网络中离散输入的处理。退火参数τ控制采样的one-hot性质和梯度消失的平衡。
摘要由CSDN通过智能技术生成

Gumbel-Softmax 是一种可导采样技巧,它可以用来对离散分布进行重参数采样。与softmax区别是,gumbel-softmax得到得是样本(即采样,对于神经网络,离散输入常转化为one-hot形式,采样出来的样本是经soft后one-hot向量 [ x 1 , x 2 , . . . , x n ] [x_1,x_2,...,x_n] [x1,x2,...,xn]),而softmax得到是样本得均值(即各分类概率, [ p 1 , p 2 , . . . , p n ] [p_1,p_2,...,p_n] [p1,p2,...,pn])。
假设每个类别得概率是 p 1 p_1 p1, p 2 p_2 p2,…, p k p_k pk, 那么下述过程提供了一种依概率采样类别的方案,称为Gumbel Max:
arg max ⁡ i [ l o g p 1 − l o g ( − l o g ϵ 1 ) ,   l o g p 2 − l o g ( − l o g ϵ 2 ) ,   . . . ,   l o g p k − l o g ( − l o g ϵ k ) ] ,

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值