熵的本质是香农信息量(log
1
p
\frac{1}{p}
p1),其中p表示信息确定性的概率。
信息熵即为信源不确定均值
H
(
u
)
=
E
[
−
l
o
g
P
i
]
=
−
∑
i
=
1
n
p
i
l
o
g
p
i
H(u)=E[-logP_i]=-\sum_{i=1}^{n}p_{i}logp_{i}
H(u)=E[−logPi]=−∑i=1npilogpi
特点:根据非真实分布q得到的平均编码长度H(p,q)大于根据真实分布得到的平均编码长度H§,实际上H(p,q)>=H§恒成立
相对熵:由q得到的平均编码长度比由p得到的平均编码长度多出来的位就是相对熵
D
(
p
∣
∣
q
)
=
H
(
p
,
q
)
−
H
(
p
)
=
∑
i
p
(
i
)
∗
l
o
g
p
(
i
)
q
(
i
)
D(p||q)= H(p,q) - H(p) =\sum_{i}p(i)*log\frac{p(i)}{q(i)}
D(p∣∣q)=H(p,q)−H(p)=∑ip(i)∗logq(i)p(i),又称为KL散度
GAN产生训练不稳定的原因:g(z)至多产生的维度为dim(z),如果
d
i
m
(
z
)
<
d
i
m
(
x
)
dim(z)<dim(x)
dim(z)<dim(x),则g(z)在x中的测度会非常小,也即它只能产生一个平面中的一条线(个人理解,详情可参考上一篇文章),所以如果g的输入维数比产生图像的维数低,那么它能产生的也只是一个零测集,当
P
r
P_{r}
Pr的支撑集和
P
g
P_{g}
Pg没有交集时,当D最优时,就会使G的梯度变得非常不稳定。
WGAN训练,采用SGD或RMSProp算法较好,一般不采用基于momentum的算法(如Adam),会导致训练变得不稳定,DCGAN采用Adam效果会比较好
帮助理解GAN的一些补充内容
最新推荐文章于 2022-08-22 19:23:42 发布