生成对抗网络&sigmoid

最新推荐文章于 2024-07-03 16:59:02 发布

mutou_cly

最新推荐文章于 2024-07-03 16:59:02 发布

阅读量328

点赞数 1

分类专栏：机器学习

本文链接：https://blog.csdn.net/mutou_cly/article/details/83189271

版权

机器学习专栏收录该内容

4 篇文章 0 订阅

订阅专栏

GAN论文:https://arxiv.org/abs/1406.2661

sigmoid

sigmoid/tanh作为映射函数，很好的把输出限制到目标区间，但是随之带来的问题是反向传播的收敛问题——梯度消失。

$f (x) = s i g m o i d (x)$
$\nabla f(x) = sigmoid(x)[1-sigmoid(x)]$
$\nabla f(x) =f(x)[1-f(x)]$

GAN

以生成对抗网络为例。
在论文中，对算法的伪代码描述如下:
生成器与辨别器的训练过程
如果在 $G$ 和 $D$ 中使用sigmoid激活函数，那在训练的收敛会出现问题。
以辨别器 $D$ 为例:

辨别器 $D$ :

假设 $D$ 的最后一层激活函数为 $s i g m o i d$ 。未经过激活时的值为 $D_{uact}$ ，即

$D_{act}=sigmoid(D_{uact})$

设最终 $l o s s$ 对某参数 $x$ 的反向传播梯度为 $D'_{act(x)}$
进一步可写成 $D'_{act(uact)}*D'_{uact(x)}$

$D'_{act(uact)}*D'_{uact(x)}=sigmoid'(D_{uact})*D'_{uact(x)}$
$D'_{act(uact)}*D'_{uact(x)}=sigmoid(D_{uact})*(1-sigmoid(D_{uact}))*D'_{act(x)}$

当D对输入图像的识别结果趋紧于0或者1时

$\lim_{D\to1/0}sigmoid(D_{uact})*(1-sigmoid(D_{uact}))=0$

即

$\lim_{D \to 1/0}sigmoid(D_{uact})*(1-sigmoid(D_{uact}))*D'_{act(x)}=0$
$\lim_{D \to 1/0}D'_{act(x)}=0$

在训练GAN的过程中，生成器和辨别器的损失函数应该是震荡的，考虑

case1:生成器的能力很强，辨别器能力较弱，不能很好的识别，从而得到 $D (G (z))$ 趋紧于1，此时我们希望通过较大的梯度调整辨别器，因为他识别错误，但是由于上文中讨论的结果，梯度经过 $s i g m o i d$ 的导数影响使得参数调整幅度较小。不能很好的改进。
case2:生成器的能力很弱，辨别器能力较强，此时 $D (G (z))$ 趋紧于0，但是我们希望能使用较大的梯度改进生成器，但是和case1的情况一样，梯度很小，无法显著改进生成器。
case3:生成器和辨别器的能力都已经达到较优值，辨别器不能区分是否是真实图片和伪造图片，此时 $D (G (z))$ 和 $D (z)$ 都趋紧0.5，我们应该希望此时反向传播梯度不要太大，但是0.5*(1-0.5)是a*(1-a)中最大的情况。即网络会以较大的梯度改变已经较优的局面。这显然与我们的初衷相悖。

Summary

PS:loss使用交叉熵的话， $l o g (D (x)) = l o g (s i g m o i d (x))$ ，其导数为 $\frac {1}{sigmoid(x)}*sigmoid(x)*(1-sigmoid(x))=1-sigmoid(x)$ ，就不会出现以上讨论的那种情况了~
当然在把激活函数换成ELU/RELU之流就更棒了~

mutou_cly

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
生成对抗网络&sigmoid

GAN论文:https://arxiv.org/abs/1406.2661sigmoidsigmoid/tanh作为映射函数，很好的把输出限制到目标区间，但是随之带来的问题是反向传播的收敛问题——梯度消失。f(x)=sigmoid(x)f(x) = sigmoid(x)f(x)=sigmoid(x)∇f(x)=sigmoid(x)[1−sigmoid(x)]\nabla f(x) = s...
复制链接

扫一扫