概率论
- 多元正态分布
X ∼ N ( μ , Σ ) \mathbf X\sim\mathrm N(\boldsymbol {\mu},\boldsymbol\Sigma) X∼N(μ,Σ)
pdf:
f X ( x 1 , x 2 , . . . , x k ) = 1 ( 2 π ) k ∣ Σ ∣ e − 1 2 ( x − μ ) T Σ − 1 ( x − μ ) f_{\mathbf X}(x_1,x_2,...,x_k)=\frac{1}{\sqrt{(2\pi)^k|\boldsymbol\Sigma|}}e^{-\frac{1}{2}(\mathbf x-\boldsymbol\mu)^{\mathrm T}\boldsymbol\Sigma^{-1}(\mathbf x-\boldsymbol\mu)} fX(x1,x2,...,xk)=(2π)k∣Σ∣1e−21(x−μ)TΣ−1(x−μ)
信息论
-
Entropy
H ( X ) = − ∑ x ∈ X p ( x ) log p ( x ) H(X)=-\sum_{x\in \mathcal X}p(x)\log p(x) H(X)=−x∈X∑p(x)logp(x)
-
Cross-entropy
H ( P , Q ) = − ∑ x ∈ X P ( x ) log Q ( x ) H(P,Q) = -\sum_{x\in \mathcal X}P(x)\log Q(x) H(P,Q)=−x∈X∑P(x)logQ(x) -
K-L divergence
K L ( P ∣ ∣ Q ) = ∑ x ∈ X P ( x ) log P ( x ) Q ( x ) ≠ K L ( Q ∣ ∣ P ) = ∑ x ∈ X Q ( x ) log Q ( x ) P ( x ) KL(P||Q)=\sum\limits_{x\in \mathcal X} P(x)\log \frac{P(x)}{Q(x)}\\ \not= \\ KL(Q||P)=\sum\limits_{x\in \mathcal X} Q(x)\log \frac{Q(x)}{P(x)} KL(P∣∣Q)=x∈X∑P(x)logQ(x)P(x)=KL(Q∣∣P)=x∈X∑Q(x)logP(x)Q(x) -
JSD
J S D ( P ∣ ∣ Q ) = 1 2 [ K L ( P ∣ ∣ P + Q 2 ) + K L ( Q ∣ ∣ P + Q 2 ) ] JSD(P||Q)=\frac{1}{2}\Bigg[KL\bigg(P||\frac{P+Q}{2}\bigg)+KL\bigg(Q||\frac{P+Q}{2}\bigg)\Bigg] JSD(P∣∣Q)=21[KL(P∣∣2P+Q)+KL(Q∣∣2P+Q)] -
Wasserstein-distance
Wasserstein距离又叫Earth-Mover(EM, 推土机 )距离
W ( P r , P g ) = inf γ ∼ ∏ ( P r , P g ) E ( x , y ) ∼ γ [ ∣ ∣ x − y ∣ ∣ ] W(P_r,P_g)=\inf\limits_{\gamma\sim\prod(P_r,P_g)}\Bbb E_{(x,y)\sim\gamma}\bigg[||x-y||\bigg] W(Pr,Pg)=γ∼∏(Pr,Pg)infE(x,y)∼γ[∣∣x−y∣∣]
其中 ∏ ( P r , P g ) \prod(P_r,P_g) ∏(Pr,Pg)是联合分布,x为真实样本,y为生成样本。从所有可能的联合分布中取样本距离期望值的下界。
Wasserstein距离相比KL散度、JS散度的优越性在于,即便两个分布没有重叠,Wasserstein距离仍然能够反映它们的远近。
KL散度和JS散度是突变的,要么最大要么最小,Wasserstein距离却是平滑的,如果我们要用梯度下降法优化 θ \theta θ这个参数,前两者根本提供不了梯度,Wasserstein距离却可以。类似地,在高维空间中如果两个分布不重叠或者重叠部分可忽略,则KL和JS既反映不了远近,也提供不了梯度,但是Wasserstein却可以提供有意义的梯度。