1. 机器学习的几种分类损失函数
1.1 信息量
- 信息量也叫做香农信息量,常用于 刻 画 消 除 随 机 变 量 X 在 x 处 的 不 确 定 性 所 需 的 信 息 量 \color{red}刻画消除随机变量X在x处的不确定性所需的信息量 刻画消除随机变量X在x处的不确定性所需的信息量。
- 假设连续型随机变量,设
p
p
p为随机变量
X
X
X的概率分布,即
p
(
x
)
p(x)
p(x)为随机变量
X
X
X在
X
=
x
X=x
X=x处的概率密度函数值,随机变量
X
X
X在
x
x
x处的香农信息量定义为:
I ( x ) = − log p ( x ) = log 1 p ( x ) (1.1) I(x) = -\log p(x)=\log \frac{1}{p(x)}\tag{1.1} I(x)=−logp(x)=logp(x)1(1.1)
1.2 信息熵
- 信息熵用于 刻 画 消 除 随 机 变 量 X 的 不 确 定 性 所 需 要 的 总 体 信 息 量 \color{red}刻画消除随机变量X的不确定性所需要的总体信息量 刻画消除随机变量X的不确定性所需要的总体信息量。
- 信息熵是衡量随机变量
X
X
X在整个样本空间的总体香农信息量,即香农信息量
log
p
(
x
)
\log p(x)
logp(x)的数学期望信息熵的定义如下:
H ( p ) = H ( X ) = E x p ( x ) [ − l o g p ( x ) ] = − ∫ p ( x ) l o g p ( x ) d x (1.2) H(p) = H(X) = E_{x~p(x)}[-logp(x)] = -\int_{}^{}p(x)logp(x)dx\tag{1.2} H(p)=H(X)=Ex p(x)[−logp(x)]=−∫p(x)logp(x)dx(1.2)
1.3 交叉熵
-
假设 q ( x ) q(x) q(x)是用来拟合 p ( x ) p(x) p(x)的概率分布, x x x属于 P P P的样本空间,交叉熵用于衡量 Q Q Q在拟合 P P P的过程中,用于 刻 画 消 除 不 确 定 性 而 充 分 使 用 的 信 息 量 \color{red}刻画消除不确定性而充分使用的信息量 刻画消除不确定性而充分使用的信息量。常作为神经网络的损失函数使用。
-
由于在每一个点 X = x X=x X=x处 q q q的香农信息量为 − log q ( x ) -\log q(x) −logq(x),即衡量 Q Q Q在 X = x X=x X=x处为了拟合 P P P所作的努力。
-
因此可以计算出在整个样本空间上 Q Q Q消除不确定性所使用的总体信息量,即 − log q ( x ) -\log q(x) −logq(x)的数学期望,由于每个 x x x的权重为 p ( x ) p(x) p(x),因此交叉熵 H ( p , q ) H(p,q) H(p,q)的定义为:
H ( p , q ) = ∑ p ( x ) l o g 1 q ( x ) (1.3) H(p, q) = \sum_{}^{}{p(x)log\frac{1}{q(x)}}\tag{1.3} H(p,q)=∑p(x)logq(x)1(1.3) -
优点:使用逻辑函数得到概率,并结合交叉熵当损失函数时,在模型效果差的时候学习速度比较快,在模型效果好的时候学习速度变慢。
-
缺点:
- 1、随着分类数目的增大,分类层的线性变化矩阵参数也随着增大;
- 2、对于封闭集分类问题,学习到的特征是可分离的,但对于开放集人脸识别问题,所学特征却没有足够的区分性。
对于人脸识别问题,首先人脸数目(对应分类数目)是很多的,而且会不断有新的人脸进来,不是一个封闭集分类问题。
- sigmoid(softmax)+cross-entropy loss 擅长于学习类间的信息,因为它采用了类间竞争机制,它只关心对于正确标签预测概率的准确性,忽略了其他非正确标签的差异,导致学习到的特征比较散。
这个问题的优化有很多,比如对softmax进行改进,如L-Softmax、SM-Softmax、AM-Softmax等。
1.4 KL散度
- KL散度也叫相对熵,用于
刻
画
概
率
分
布
q
拟
合
概
率
分
布
p
的
程
度
\color{red}刻画概率分布q拟合概率分布p的程度
刻画概率分布q拟合概率分布p的程度。
- p p p为真实数据的概率分布, q q q为随机噪声生成数据的概率分布;
- 生成对抗网络中
q
q
q分布拟合
p
p
p分布的过程中:
- 如果 q 完 全 拟 合 p \color{blue}q完全拟合p q完全拟合p,则 H ( p ) = H ( p , q ) \color{red}H(p)=H(p,q) H(p)=H(p,q);
- 如果 q 拟 合 p 不 充 分 \color{blue}q拟合p不充分 q拟合p不充分,则产生的信息损耗 H ( p ) − H ( p , q ) \color{red}H(p)-H(p,q) H(p)−H(p,q)就是 p p p和 q q q的KL散度。
-
p
和
q
的
相
对
熵
D
(
p
∣
∣
q
)
\color{red}p和q的相对熵D(p||q)
p和q的相对熵D(p∣∣q)为
信
息
熵
H
(
p
)
与
交
叉
熵
H
(
p
,
q
)
的
差
\color{red}信息熵H(p)与交叉熵H(p,q)的差
信息熵H(p)与交叉熵H(p,q)的差,KL散度是用来度量使用基于Q的编码来编码来自P的样本平均所需的额外的比特个数。KL散度的定义为:
H ( p ) − H ( p , q ) = − ∫ p ( x ) l o g p ( x ) d x − ( − ∫ p ( x ) l o g q ( x ) d x ) (1.4) H(p)-H(p, q) = -\int_{}^{}p(x)logp(x)dx-(-\int_{}^{}p(x)logq(x)dx)\tag{1.4} H(p)−H(p,q)=−∫p(x)logp(x)dx−(−∫p(x)logq(x)dx)(1.4)
D ( p ∣ ∣ q ) = ∑ P ( x ) l o g P ( x ) Q ( x ) (1.5) D(p||q) = \sum_{}^{}{P(x)log\frac{P(x)}{Q(x)}}\tag{1.5} D(p∣∣q)=∑P(x)logQ(x)P(x)(1.5)
3.5 JS散度
- 由于KL散度并不是一个真正的度量或距离函数,存在不对称的缺点 ,故引出JS散度。
- JS散度的 值 域 范 围 是 [ 0 , 1 ] \color{red}值域范围是[0,1] 值域范围是[0,1],相同为0,相反为1。
- JS散度具有对称性
J
S
(
P
∣
∣
Q
)
=
J
S
(
Q
∣
∣
P
)
\color{red}JS(P||Q)=JS(Q||P)
JS(P∣∣Q)=JS(Q∣∣P) 。其定义为:
J S ( P ∣ ∣ Q ) = 1 2 K L ( P ( x ) ∣ ∣ P ( x ) + Q ( x ) 2 ) + 1 2 K L ( Q ( x ) ∣ ∣ P ( x ) + Q ( x ) 2 ) (1.6) JS(P||Q)=\frac{1}{2}KL(P(x)||\frac{P(x)+Q(x)}{2})+\frac{1}{2}KL(Q(x)||\frac{P(x)+Q(x)}{2})\tag{1.6} JS(P∣∣Q)=21KL(P(x)∣∣2P(x)+Q(x))+21KL(Q(x)∣∣2P(x)+Q(x))(1.6) - JS散度的缺陷:当 两 个 分 布 完 全 不 重 叠 时 \color{red}两个分布完全不重叠时 两个分布完全不重叠时,即便两个分布的中心距离有多近,其JS散度都是一个常数,以至于 梯 度 为 0 , 无 法 更 新 \color{red}梯度为0,无法更新 梯度为0,无法更新。
1.6 Wasserstein距离
3.6.1 介绍
- 由于KL散度和JS散度存在同一个问题,如果p分布和q分布相距很远完全没有重叠,则会导致梯度消失,故引出了Wasserstein距离。
- Wasserstein距离的起源是optimal transport problem,把概率分布想象成一堆石子,如何移动一堆石子,通过最小的累积移动距离把它堆成另外一个目标形状,这就是optimal transport所关心的问题。
- 前提: 确保本来的这一堆石子的总质量要和目标石子堆总质量一样;考虑到概率分布的归一化条件,这一点是自然被满足的。
1.6.2 数学表示
- 引子
- 假设地面上 X = R 2 \mathcal{X} = \mathbb{R}^2 X=R2堆了一些石子,石子的分布用 μ : X → R \mu: \mathcal{X} \to \mathbb{R} μ:X→R来表示。
- 采取同样的表示方法,地面上的任意一块面积 A ⊆ X A \subseteq \mathcal{X} A⊆X, μ ( A ) \color{blue}\mu(A) μ(A)表示这块面积上放置的石子质量。
- 定义目标石子堆的分布为 ν \color{blue}\nu ν,定义一个输运方案 T : X → X T:\mathcal{X} \to \mathcal{X} T:X→X把现有的石子堆变成目标石子堆。 T ( A ) = B T(A)=B T(A)=B表示把放在A处的石子都运到B处,类似地可以定义反函数 T − 1 ( B ) = A T^{-1}(B)=A T−1(B)=A。
- 该输运方案成立需要满足 ν ( B ) = μ ( T − 1 ( B ) ) , ∀ B ⊆ X \color{red}\nu(B) = \mu(T^{-1}(B)), \ \forall B\subseteq\mathcal{X} ν(B)=μ(T−1(B)), ∀B⊆X,即任意位置的石子通过输运过后都刚好满足分布 μ \mu μ的要求。
- 两堆石子之间的距离可以被定义成把一堆石子挪动成另外一堆所需要的
最
小
输
运
成
本
\color{blue}最小输运成本
最小输运成本可以写成:
W p ( μ , ν ) = ( inf γ ∈ Γ ( μ , ν ) ∫ X × X ∣ ∣ x − y ∣ ∣ p d γ ( x , y ) ) 1 / p (1.7) W_p(\mu, \nu) = \left( \inf_{\gamma\in\Gamma(\mu, \nu)} \int_{\mathcal{X}\times\mathcal{X}} ||x-y||^p d\gamma(x,y) \right)^{1/p}\tag{1.7} Wp(μ,ν)=(γ∈Γ(μ,ν)inf∫X×X∣∣x−y∣∣pdγ(x,y))1/p(1.7)
其中 inf \inf inf指代最大下界, γ \gamma γ是一个联合概率分布,称coupling,它要求其边缘分布刚好是 μ \mu μ 和 ν \nu ν,即 γ ( A × X ) = μ ( A ) \gamma(A\times\mathcal{X})=\mu(A) γ(A×X)=μ(A), γ ( X × B ) = ν ( B ) \gamma(\mathcal{X}\times B)=\nu(B) γ(X×B)=ν(B);联合概率分布是很难实际成为真实的optimal coupling的,一般来讲optimal coupling都会比较稀疏。排除少数不可分的情况,大多数的optimal coupling都是稀疏的,即 γ ( A × B ) = μ ( A ∩ T − 1 ( B ) ) \gamma(A\times B)=\mu(A\cap T^{-1}(B)) γ(A×B)=μ(A∩T−1(B))。
- 定义
- 把面积转换成概率,则:概率分布
p
(
x
)
p(x)
p(x)转变成
q
(
x
)
q(x)
q(x),设距离函数(转移成本)为
d
(
x
,
y
)
d(x, y)
d(x,y),那么 Wasserstein 距离定义为:
W [ p , q ] = inf γ ∈ Π [ p , q ] ∬ γ ( x , y ) d ( x , y ) d x d y (1.8) \color{red}\mathcal{W}[p, q]=\inf _{\gamma \in \Pi[p, q]} \iint \gamma({x}, {y}) d({x}, {y}) \mathrm d {x} \mathrm d {y}\tag{1.8} W[p,q]=γ∈Π[p,q]inf∬γ(x,y)d(x,y)dxdy(1.8)
γ ∈ Π [ p , q ] \gamma \in \Pi[p, q] γ∈Π[p,q]指的是 p , q p, q p,q的联合分布。从而,求两个分布 p ( x ) p(x) p(x)和 q ( x ) q(x) q(x)的Wasserstein距离本质上是一个优化问题:
inf γ ∈ Π [ p , q ] ∬ γ ( x , y ) d ( x , y ) d x d y s.t. { ∫ γ ( x , y ) d y = p ( x ) ∫ γ ( x , y ) d x = q ( y ) γ ( x , y ) ⩾ 0 (1.9) \begin{array}{l} \displaystyle\inf_{\gamma \in \Pi[p, q]} \iint \gamma (x, y) d(x, y) \mathrm d x \mathrm d y \\ \text { s.t. }\left\{\begin{array}{l} \displaystyle\int \gamma(x, y)\mathrm d y=p(x) \\ \displaystyle\int \gamma(x, y)\mathrm d x=q(y) \\ \gamma (x, y) \geqslant 0 \end{array}\right. \end{array}\tag{1.9} γ∈Π[p,q]inf∬γ(x,y)d(x,y)dxdy s.t. ⎩⎪⎪⎪⎨⎪⎪⎪⎧∫γ(x,y)dy=p(x)∫γ(x,y)dx=q(y)γ(x,y)⩾0(1.9) - 公式(1.9)的对偶问题则是:
- 对于第一个约束条件,每一个 x x x 都有一个对偶变量,假设这个对偶变量是 x x x的函数,设为 f ( x ) f(x) f(x),对偶变量与等式约束乘起来求和,就转变成积分;
- 接着我们把第二个约束条件的对偶变量设成
g
(
x
)
g(x)
g(x),于是,公式(3.8)的对偶函数就是:
inf γ ( x , y ) ⩾ 0 ∬ γ ( x , y ) d ( x , y ) d x d y + ∫ f ( x ) [ p ( x ) − ∫ γ ( x , y ) d y ] d x + ∫ g ( y ) [ q ( y ) − ∫ γ ( x , y ) d x ] d y (1.10) \inf _{\gamma(x, y) \geqslant 0} \iint \gamma(x, y) d(x, y) \mathrm d x \mathrm d y+\int f(x)\left[p(x)-\int \gamma (x, y) \mathrm d y\right]\mathrm d x \\+ \int g(y)\left[q(y)-\int \gamma(x, y)\mathrm dx \right]\mathrm d y\tag{1.10} γ(x,y)⩾0inf∬γ(x,y)d(x,y)dxdy+∫f(x)[p(x)−∫γ(x,y)dy]dx+∫g(y)[q(y)−∫γ(x,y)dx]dy(1.10)
整理可得:
inf γ ( x , y ) ⩾ 0 ∫ f ( x ) p ( x ) d x + ∫ g ( y ) q ( y ) d y + ∬ γ ( x , y ) [ d ( x , y ) − f ( x ) − g ( y ) ] d x d y (1.11) \inf _{\gamma(x, y) \geqslant 0} \int f(x) p(x) \mathrm d x+\int g(y) q (y) \mathrm d y\\+\iint \gamma(x, y)\left[d(x, y)-f(x)-g(y) \right] \mathrm dx \mathrm dy\tag{1.11} γ(x,y)⩾0inf∫f(x)p(x)dx+∫g(y)q(y)dy+∬γ(x,y)[d(x,y)−f(x)−g(y)]dxdy(1.11)
若 d ( x , y ) − f ( x ) − g ( y ) ⩽ 0 d(x, y)-f(x)-g(y) \leqslant 0 d(x,y)−f(x)−g(y)⩽0,则可取适当的 γ ( x , y ) ⩾ 0 \gamma(x, y) \geqslant 0 γ(x,y)⩾0使得上式无穷小,所以公式(3.10)可以写成:
sup f , g ∫ [ f ( x ) p ( x ) + g ( x ) q ( x ) ] d x s.t. f ( x ) + g ( y ) ≤ d ( x , y ) (1.12) \begin{aligned} \sup_{f, g} & \int[f(x) p(x)+g(x) q(x)] d x \\ \text{s.t.} \; & f(x)+g(y) \leq d(x, y) \end{aligned}\tag{1.12} f,gsups.t.∫[f(x)p(x)+g(x)q(x)]dxf(x)+g(y)≤d(x,y)(1.12)
sup \sup sup表示最小上界。只要强对偶关系成立,则有:
W [ p , q ] = sup f , g { ∫ [ p ( x ) f ( x ) + q ( x ) g ( x ) ] d x ∣ f ( x ) + g ( y ) ≤ d ( x , y ) } (1.13) \mathcal{W}[p, q]=\sup_{f, g}\left\{\int[p({x}) f({x})+q({x}) g({x})] d {x} \mid f({x})+g({y}) \leq d({x}, {y})\right\}\tag{1.13} W[p,q]=f,gsup{∫[p(x)f(x)+q(x)g(x)]dx∣f(x)+g(y)≤d(x,y)}(1.13)
因为 d ( x , x ) = 0 d(x, x)=0 d(x,x)=0,所以 g ( x ) = − f ( x ) g(x)=-f(x) g(x)=−f(x),最终形式:
W [ p , q ] = sup f { ∫ [ p ( x ) f ( x ) − q ( x ) f ( x ) ] d x ∣ f ( x ) − f ( y ) ≤ d ( x , y ) } (1.14) \mathcal{W}[p, q]=\sup_{f}\left\{\int[p({x}) f({x})-q({x}) f({x})] \mathrm d {x} \mid f({x})-f({y}) \leq d({x}, {y})\right\}\tag{1.14} W[p,q]=fsup{∫[p(x)f(x)−q(x)f(x)]dx∣f(x)−f(y)≤d(x,y)}(1.14)
一般 d ( x , y ) = ∥ x − y ∥ t d(x, y)=\|x-y\|_t d(x,y)=∥x−y∥t会选取成欧式空间的 t t t范数,我们称之为type-t Wasserstein Distance。可写成:
W ( p , q ) = { inf γ ∈ Γ ( p , q ) ∬ γ ( x , y ) ∣ ∣ x − y ∣ ∣ t d γ ( x , y ) } 1 / t (1.15) \color{red}W(p, q) = \left\{ \inf_{\gamma\in\Gamma(p, q)} \iint_{\gamma(x, y)} ||x-y||^t d\gamma(x,y) \right\}^{1/t}\tag{1.15} W(p,q)={γ∈Γ(p,q)inf∬γ(x,y)∣∣x−y∣∣tdγ(x,y)}1/t(1.15)
- 把面积转换成概率,则:概率分布
p
(
x
)
p(x)
p(x)转变成
q
(
x
)
q(x)
q(x),设距离函数(转移成本)为
d
(
x
,
y
)
d(x, y)
d(x,y),那么 Wasserstein 距离定义为:
3.6.3 例子
3.6.4 优点
- 能够很自然地度量离散分布和连续分布之间的距离;
- 不仅给出了距离的度量,而且给出如何把一个分布变换为另一分布的方案;
- 能够连续地把一个分布变换为另一个分布,在此同时,能够保持分布自身的几何形态特征。
- 基于Wasserstein距离可以找出Wasserstein平均(Wasserstein barycenter),相比于欧式平均(Eulidean average)来说,它更能够描述其形态特征。