高能预警:本文涉及大量的数学推导,如有不适,概不负责。
回归问题与平方误差和
在回归问题(regression problems)中,我们常用平方误差和(sum of squares)来衡量模型的好坏。
回归问题可以定义如下:
给定一个包含
N
\pmb{N}
NNN 个数据集的训练集
x
≡
{
x
1
,
x
2
,
x
3
,
.
.
.
,
x
N
}
\mathbf{x}\equiv\{\pmb{x_1},\pmb{x_2},\pmb{x_3},...,\pmb{x_N}\}
x≡{x1x1x1,x2x2x2,x3x3x3,...,xNxNxN},以及这些数据对应的目标值
t
=
{
t
1
,
t
2
,
t
3
,
.
.
.
,
t
N
}
\mathbf{t}=\{\pmb{t_1},\pmb{t_2},\pmb{t_3},...,\pmb{t_N}\}
t={t1t1t1,t2t2t2,t3t3t3,...,tNtNtN},回归问题的目标是利用这组训练集,寻找一个合适的模型,来预测一个新的数据点
x
^
\hat{x}
x^对应的目标值
t
^
\hat{t}
t^。记模型的参数为
w
\pmb{w}
www,模型对应的函数为
y
\pmb{y}
yyy,模型的预测值可以相应表示为
y
(
x
,
w
)
\pmb{y}(\pmb{x},\pmb{w})
yyy(xxx,www)。
为了衡量模型的好坏,需要一种方法衡量预测值与目标值之间的误差,一个常用的选择是平方误差和:
E
(
w
)
=
1
2
∑
n
=
1
N
{
y
(
x
,
w
)
−
t
n
}
2
\pmb{E}(\pmb{w})=\frac{1}{2}\sum_{n=1}^N \{\pmb{y}(\pmb{x},\pmb{w})-\pmb{t_n}\}^2
EEE(www)=21n=1∑N{yyy(xxx,www)−tntntn}2
平方误差和函数可以看成是每个数据点 x n \pmb{x_n} xnxnxn的预测值 y ( x n , w ) \pmb{y}(\pmb{x_n},\pmb{w}) yyy(xnxnxn,www)到真实目标值 t n \pmb{t_n} tntntn的误差平方和的一半。
不同的参数
w
\pmb{w}
www对应于不同的误差函数
E
(
w
)
\pmb{E}(\pmb{w})
EEE(www),因此,回归问题的目标通常是找到一组参数
w
∗
\pmb{w}^\ast
www∗使得误差函数
E
(
w
)
\pmb{E}(\pmb{w})
EEE(www)最小化。
那么最小化
E
(
w
)
\pmb{E}(\pmb{w})
EEE(www)究竟有什么意义呢?
在回答这个问题之前,我们需要先复习一下概率论的知识点。
贝叶斯概率
先复习一下与条件概率相关的贝叶斯公式:
p
(
x
∣
y
)
=
p
(
y
∣
x
)
p
(
x
)
p
(
y
)
\pmb{p}(x|y)=\frac{\pmb{p}(y|x)\pmb{p}(x)}{\pmb{p}(y)}
ppp(x∣y)=ppp(y)ppp(y∣x)ppp(x)
对于回归问题来说,如果我们记训练集为
D
\mathcal{D}
D,那么对于模型函数
w
\pmb{w}
www来说,贝叶斯公式给出:
p
(
w
∣
D
)
=
p
(
D
∣
w
)
p
(
w
)
p
(
D
)
\pmb{p}(w|\mathcal{D})=\frac{\pmb{p}(\mathcal{D}|w)\pmb{p}(w)}{\pmb{p}(\mathcal{D})}
ppp(w∣D)=ppp(D)ppp(D∣w)ppp(w)
其中
p
(
w
)
\pmb{p}(w)
ppp(w)表示的是参数
w
\pmb{w}
www的先验(prior)分布;
p
(
D
∣
w
)
\pmb{p}(\mathcal{D}|w)
ppp(D∣w)是给定参数为
w
\pmb{w}
www的情况下,训练数据为
D
\mathcal{D}
D的可能性,我们也可以把它看成一个关于
w
\pmb{w}
www的函数,这个函数又叫做似然函数(likelihood function);
p
(
w
∣
D
)
\pmb{p}(w|\mathcal{D})
ppp(w∣D)是参数
w
\pmb{w}
www在给定数据
D
\mathcal{D}
D下的后验(posterior)分布。
给定这些定义,贝叶斯公式可以表示成:
p
o
s
t
e
r
i
o
r
∝
l
i
k
e
l
i
h
o
o
d
×
p
r
i
o
r
\mathbf{posterior}\varpropto\mathbf{likelihood}\times\mathbf{prior}
posterior∝likelihood×prior
即后验正比于似然与先验的乘积。
似然函数是一个非常重要的概念。通过极大似然函数 p ( D ∣ w ) \pmb{p}(\mathcal{D}|w) ppp(D∣w),我们可以找到一个最优的参数 w ∗ \pmb{w}^\ast www∗,使得在这组参数设定下,出现训练数据 D \mathcal{D} D的可能性 p ( D ∣ w ) \pmb{p}(\mathcal{D}|w) ppp(D∣w)最大。这组参数在统计学上叫做参数 w \pmb{w} www的极大似然估计。
极大似然与回归问题
我们在初中阶段就学到了在做实验时,需要多次取样取平均的方法来减少随机误差,而误差有两种:系统误差和随机误差,那么在实际取样计算的过程中,系统误差是不可避免的。
同理,在回归问题中, x \pmb{x} xxx的测量值 t \pmb{t} ttt会存在一定的误差。
假定对所有的数据点
x
\pmb{x}
xxx,模型预测值
y
(
x
n
,
w
)
\pmb{y}(\pmb{x_n},\pmb{w})
yyy(xnxnxn,www)与目标值
t
\pmb{t}
ttt之间的误差是一样的,并服从一定的概率分布,比如均值为0,方差为
β
−
1
=
σ
2
\beta^{-1}=\sigma^2
β−1=σ2的高斯分布,则有:
p
(
t
−
y
(
x
,
w
)
∣
x
,
w
,
β
)
∼
N
(
t
−
y
(
x
,
w
)
∣
0
,
β
−
1
)
\pmb{p}(t-y(x, w)|x,w,\beta)\sim\mathcal{N}(t-y(x,w)|0,\beta^{-1})
ppp(t−y(x,w)∣x,w,β)∼N(t−y(x,w)∣0,β−1)
即:
p
(
t
∣
x
,
w
,
β
)
∼
N
(
t
∣
y
(
x
,
t
)
,
β
−
1
)
\pmb{p}(t|x,w,\beta)\sim\mathcal{N}(t|y(x,t),\beta^{-1})
ppp(t∣x,w,β)∼N(t∣y(x,t),β−1)
对于一组独立同分布的数据点
x
≡
{
x
1
,
x
2
,
x
3
,
.
.
.
,
x
N
}
\mathbf{x}\equiv\{\pmb{x_1},\pmb{x_2},\pmb{x_3},...,\pmb{x_N}\}
x≡{x1x1x1,x2x2x2,x3x3x3,...,xNxNxN},以及这些数据对应的目标值
t
=
{
t
1
,
t
2
,
t
3
,
.
.
.
,
t
N
}
\mathbf{t}=\{\pmb{t_1},\pmb{t_2},\pmb{t_3},...,\pmb{t_N}\}
t={t1t1t1,t2t2t2,t3t3t3,...,tNtNtN},我们得到关于这组数据的似然函数:
p
(
t
∣
x
,
w
,
β
−
1
)
=
∏
n
=
1
N
p
(
t
n
∣
x
n
,
w
,
β
−
1
)
=
∏
n
=
1
N
N
(
t
n
∣
y
(
x
n
,
w
)
,
β
−
1
)
\pmb{p}(t|x,w,\beta^{-1})=\prod_{n=1}^N \pmb{p}(t_{n}|x_{n},w,\beta^{-1})=\prod_{n=1}^N \mathcal{N}(t_{n}|y(x_{n},w),\beta^{-1})
ppp(t∣x,w,β−1)=n=1∏Nppp(tn∣xn,w,β−1)=n=1∏NN(tn∣y(xn,w),β−1)
其中,高斯分布的概率函数为:
N
(
t
∣
y
(
x
,
t
)
,
β
−
1
)
=
(
β
2
π
)
e
x
p
{
−
β
2
[
t
−
y
(
x
,
w
)
]
2
}
\mathcal{N}(t|y(x,t),\beta^{-1})=\left(\frac{\beta}{2\pi}\right)\mathbf{exp}\{-\frac{\beta}{2}[t-y(x,w)]^2\}
N(t∣y(x,t),β−1)=(2πβ)exp{−2β[t−y(x,w)]2}
可以通过极大化这个似然函数得到关于
w
\pmb{w}
www的一组极大似然解。
不过,更方便的做法是极大对数似然函数,因为对数函数是严格单调递增的,所以极大对数似然的解与极大似然的解是相同的。
对数似然函数为:
l
n
p
(
t
∣
x
,
w
,
β
−
1
)
=
−
β
2
∑
n
=
1
N
{
y
(
x
n
,
w
)
−
t
2
}
+
N
2
l
n
β
−
N
2
l
n
2
π
\mathbf{ln}p(t|x,w,\beta^{-1})=-\frac{\beta}{2}\sum_{n=1}^N \{y(x_{n},w)-t^2\}+\frac{N}{2}\mathbf{ln}\beta-\frac{N}{2}\mathbf{ln}2\pi
lnp(t∣x,w,β−1)=−2βn=1∑N{y(xn,w)−t2}+2Nlnβ−2Nln2π
如果我们你不考虑
β
\beta
β的影响,那么,对于参数
w
\pmb{w}
www来说,最小化平方误差和的解,就等于极大对数似然的估计。
因此,最小化平方误差和 E ( w ) \pmb{E}(\pmb{w}) EEE(www)与极大似然等价,考虑到似然函数的定义,优化 E ( w ) \pmb{E}(\pmb{w}) EEE(www)相当于在给定高斯误差的假设下,寻找一组 w \pmb{w} www使得观察到目标值 t \pmb{t} ttt的概率最大。
分类问题与交叉熵损失
现在我们考虑另一类问题----分类问题。
我们同样给出定义:
给定一个包含
N
\pmb{N}
NNN 个数据集的训练集
x
≡
{
x
1
,
x
2
,
x
3
,
.
.
.
,
x
N
}
\mathbf{x}\equiv\{\pmb{x_1},\pmb{x_2},\pmb{x_3},...,\pmb{x_N}\}
x≡{x1x1x1,x2x2x2,x3x3x3,...,xNxNxN},以及这些数据对应的目标值
t
=
{
t
1
,
t
2
,
t
3
,
.
.
.
,
t
N
}
\mathbf{t}=\{\pmb{t_1},\pmb{t_2},\pmb{t_3},...,\pmb{t_N}\}
t={t1t1t1,t2t2t2,t3t3t3,...,tNtNtN},这里,
t
n
∈
{
1
,
2
,
3
,
.
.
.
,
K
}
\mathbf{t_{n}}\in\{\pmb{1},\pmb{2},\pmb{3},...,\pmb{K}\}
tn∈{111,222,333,...,KKK},分类问题的目标是利用这组训练集,寻找一个合适的模型,来预测一个新的数据点
x
^
\hat{\pmb{x}}
xxx^对用的类别
t
^
\hat{\pmb{t}}
ttt^。现在假设模型的参数为
w
\pmb{w}
www,模型输出是属于每一类的概率,预测为第
k
∈
{
1
,
2
,
3
,
.
.
.
,
K
}
\mathbf{k}\in\{\pmb{1},\pmb{2},\pmb{3},...,\pmb{K}\}
k∈{111,222,333,...,KKK}类的概率为
y
(
x
,
w
)
\pmb{y}(\pmb{x},\pmb{w})
yyy(xxx,www)。
对于样本
x
\pmb{x}
xxx,其属于第
t
\pmb{t}
ttt类的概率为:
p
(
t
∣
x
,
w
)
=
∏
k
=
1
K
p
(
y
=
t
∣
x
,
w
)
1
t
=
k
\pmb{p}(t|x,w)=\prod_{k=1}^K \pmb{p}(y=t|x,w)^{1_{t=k}}
ppp(t∣x,w)=k=1∏Kppp(y=t∣x,w)1t=k
其中:
1
t
=
k
=
{
1
,
t
=
k
0
,
t
≠
k
\mathbf{1}_{t=k} = \begin{cases} 1, & t=k \\ 0, & t\neq k \end{cases}
1t=k={1,0,t=kt̸=k
因此,似然函数为:
p
(
t
∣
x
,
w
)
=
∑
n
=
1
N
∑
k
=
1
K
1
t
=
k
l
o
g
p
(
t
n
∣
x
n
,
w
)
\pmb{p}(\mathbf{t}|\mathbf{x},w)=\sum_{n=1}^N\sum_{k=1}^K \mathbf{1}_{t=k}\mathbf{log}\pmb{p}(\pmb{t_n}|\pmb{x_n},w)
ppp(t∣x,w)=n=1∑Nk=1∑K1t=klogppp(tntntn∣xnxnxn,w)
极大化对数似然,相当于极小化:
−
∑
n
=
1
N
∑
k
=
1
K
1
t
=
k
l
o
g
p
(
t
n
∣
x
n
,
w
)
-\sum_{n=1}^N\sum_{k=1}^K \mathbf{1}_{t=k}\mathbf{log}\pmb{p}(\pmb{t_n}|\pmb{x_n},w)
−n=1∑Nk=1∑K1t=klogppp(tntntn∣xnxnxn,w)
事实上,这正是我们常使用的多类交叉熵损失函数的表示形式。
因此,在分类问题中,最小化交叉熵损失函数相当于样本的极大似然函数。
正则项
在优化目标函数时,处理正常的损失函数外,为了防止过拟合,我们通常会加入一些正则项,比如权值衰减(weight decay),lasso等等。
比如,在回归问题中,使用权值衰减后,目标函数可能是:
E
(
w
)
=
1
2
∑
n
=
1
N
{
y
(
x
,
w
)
−
t
n
}
2
+
λ
w
⊤
w
\pmb{E}(\pmb{w})=\frac{1}{2}\sum_{n=1}^N \{\pmb{y}(\pmb{x},\pmb{w})-\pmb{t_n}\}^2+\lambda\pmb{w}^{\top}\pmb{w}
EEE(www)=21n=1∑N{yyy(xxx,www)−tntntn}2+λwww⊤www
这里,我们假定
w
\pmb{w}
www可以被拉长表示为一个一维向量。
此时,优化这个目标函数就不能用极大似然来解释了。
不过,如果我们观察贝叶斯公式:
p
(
x
∣
y
)
=
p
(
y
∣
x
)
p
(
x
)
p
(
y
)
\pmb{p}(x|y)=\frac{\pmb{p}(y|x)\pmb{p}(x)}{\pmb{p}(y)}
ppp(x∣y)=ppp(y)ppp(y∣x)ppp(x)
以及:
p
o
s
t
e
r
i
o
r
∝
l
i
k
e
l
i
h
o
o
d
×
p
r
i
o
r
\mathbf{posterior}\varpropto\mathbf{likelihood}\times\mathbf{prior}
posterior∝likelihood×prior
我们会发现,如果两边去对数,那么就有:
l
n
p
(
w
∣
D
)
=
l
n
p
(
D
∣
w
)
+
l
n
p
(
w
)
+
c
o
n
s
t
\mathbf{ln}\pmb{p}(w|\mathcal{D})=\mathbf{ln}\pmb{p}(\mathcal{D}|w)+\mathbf{ln}\pmb{p}(w)+\pmb{const}
lnppp(w∣D)=lnppp(D∣w)+lnppp(w)+constconstconst
那么,我们加入的正则项,是不是对应于
w
\pmb{w}
www的先验概率
p
(
w
)
\pmb{p}(\pmb{w})
ppp(www)呢?
答案是肯定的。
如果给出参数 w \pmb{w} www侧先验概率,那么极大后验估计(Maximize a Posterior, MAP)是能给出类似带正则项目标函数 E ( w ) \pmb{E}(\pmb{w}) EEE(www)的结构的。
问题是什么样的先验会给出类似权值衰减的正则项呢?
一个通常的想法是我们认为参数
w
\pmb{w}
www服从的先验分布是一个均值为0,方差为
α
−
1
I
\alpha^{-1}\pmb{I}
α−1III的D维高斯分布,那么,我们有:
p
(
w
∣
α
)
=
N
(
0
,
α
−
1
I
)
=
(
α
2
π
)
D
2
e
x
p
{
−
α
2
w
⊤
w
}
\pmb{p}(w|\alpha)=\mathcal{N}(0,\alpha^{-1}\pmb{I})=\left(\frac{\alpha}{2\pi}\right)^{\frac{D}{2}}\mathbf{exp}\{-\frac{\alpha}{2}\pmb{w}^{\top}\pmb{w}\}
ppp(w∣α)=N(0,α−1III)=(2πα)2Dexp{−2αwww⊤www}
其对数为:
l
n
p
(
w
∣
α
)
=
−
α
2
w
⊤
w
+
c
o
n
s
t
\mathbf{ln}\pmb{p}(w|\alpha)=-\frac{\alpha}{2}\pmb{w}^{\top}\pmb{w}+\pmb{const}
lnppp(w∣α)=−2αwww⊤www+constconstconst
结合我们之前的推导,我们有:
l
n
p
(
w
∣
t
,
x
,
β
,
α
)
=
l
n
p
(
t
∣
x
,
w
,
β
)
+
l
n
p
(
w
∣
α
)
\mathbf{ln}\pmb{p}(w|\mathbf{t},\mathbf{x}, \beta,\alpha)=\mathbf{ln}\pmb{p}(\mathbf{t}|\mathbf{x}, w,\beta)+\mathbf{ln}\pmb{p}(w|\alpha)
lnppp(w∣t,x,β,α)=lnppp(t∣x,w,β)+lnppp(w∣α)
=
−
β
2
∑
n
=
1
N
{
y
(
x
,
w
)
−
t
n
}
2
−
α
2
w
⊤
w
+
c
o
n
s
t
=-\frac{\beta}{2}\sum_{n=1}^N \{\pmb{y}(\pmb{x},\pmb{w})-\pmb{t_n}\}^2-\frac{\alpha}{2}\pmb{w}^{\top}\pmb{w}+\pmb{const}
=−2βn=1∑N{yyy(xxx,www)−tntntn}2−2αwww⊤www+constconstconst
因此,加权值衰减的正则与高斯分布先验下极大后验估计的结果一致。
对于分类问题,该结论依然成立。
为什么是高斯分布?
我们已经解释了目标函数中优化某些损失韩式和正则项的意义。在解释更多的损失函数和正则项之前,需要先解决一个问题。
为什么是高斯分布?怎么老是高斯分布?
先给出结论:
对于一个连续随机变量
x
\pmb{x}
xxx,在给定均值和方差的约束下,交叉信息熵最大的分布是高斯分布。
熵是描述系统混乱度的概念,热力学第二定律告诉我们,在没有外力作用时,熵总是趋于自增的,因此,上面的结论告诉我们,生活中很多现象服从高斯分布并不是偶然。
我们先引出信息熵的概念。
先考虑一个离散的随机变量 X \pmb{X} XXX,给定一个该随机变量的观察值 x \pmb{x} xxx,希望用一个函数 h ( x ) \pmb{h}(\pmb{x}) hhh(xxx)去衡量 x \pmb{x} xxx所携带的信息量。一般来说,如果 x \pmb{x} xxx是一件发生概率极低的事情,那么我们会觉得它很有信息量,反之,如果 x \pmb{x} xxx是一件经常发生的事情,那么我们会觉得信息量很少。因此,信息量会和 x \pmb{x} xxx发生的概率 p ( x ) \pmb{p}(\pmb{x}) ppp(xxx)相关。
另一方面,我们认为,如果两个事件
x
\pmb{x}
xxx和
y
\pmb{y}
yyy是相互独立的,那么,我们认为两者携带的信息量是各自信息量之和:
h
(
x
,
y
)
=
h
(
x
)
+
h
(
y
)
\pmb{h}(\pmb{x},\pmb{y})=\pmb{h}(\pmb{x})+\pmb{h}(\pmb{y})
hhh(xxx,yyy)=hhh(xxx)+hhh(yyy)
另一方面,独立性给出:
p
(
x
,
y
)
=
p
(
x
)
p
(
y
)
\pmb{p}(\pmb{x},\pmb{y})=\pmb{p}(\pmb{x})\pmb{p}(\pmb{y})
ppp(xxx,yyy)=ppp(xxx)ppp(yyy)
再考虑约束,当
p
(
x
)
=
1
\pmb{p}(\pmb{x})=1
ppp(xxx)=1时,
h
(
x
)
=
0
\pmb{h}(\pmb{x})=0
hhh(xxx)=0,不难看出,符合条件的是概率密度的对数函数,不妨定义为:
h
(
x
)
=
−
l
o
g
2
p
(
x
)
\pmb{h}(\pmb{x})=-\mathbf{log}_2 \pmb{p}(\pmb{x})
hhh(xxx)=−log2ppp(xxx)
这里,使用以2为底的对数并不是必须的,也可以使用其它底。不过使用2为底,信息的单位就变成了bit。
对于一个离散分布
X
\pmb{X}
XXX来说,其信息的期望为:
H
[
x
]
=
−
∑
x
p
(
x
)
l
o
g
2
p
(
x
)
\pmb{H}[\pmb{x}]=-\sum_x \pmb{p}(\pmb{x})\mathbf{log}_2 \pmb{p}(\pmb{x})
HHH[xxx]=−x∑ppp(xxx)log2ppp(xxx)
我们把
H
[
x
]
\pmb{H}[\pmb{x}]
HHH[xxx]叫做这个随机变量的熵。
比如说,对于一个等概率,取值为8个的离散分布,其熵为:
H
=
−
8
×
1
8
×
l
o
g
2
1
8
=
3
b
i
t
s
\pmb{H}=-8\times\frac{1}{8}\times\mathbf{log}_2 \frac{1}{8}=3bits
HHH=−8×81×log281=3bits
3比特正是用二进制表示这8个值所需要的大小。
再比如说,考虑取值为
a
,
b
,
c
,
d
a,b,c,d
a,b,c,d,概率为
1
2
,
1
4
,
1
8
,
1
8
\frac{1}{2},\frac{1}{4},\frac{1}{8},\frac{1}{8}
21,41,81,81的分布,其熵为:
H
=
−
(
1
2
l
o
g
2
1
2
+
1
4
l
o
g
2
1
4
+
2
×
1
8
l
o
g
2
1
8
)
=
1.75
b
i
t
s
\pmb{H}=-\left(\frac{1}{2}log_2 \frac{1}{2}+\frac{1}{4}log_2 \frac{1}{4}+2\times\frac{1}{8}log_2 \frac{1}{8}\right)=1.75bits
HHH=−(21log221+41log241+2×81log281)=1.75bits
而这正是用霍夫曼编码a:0,b:10,c:110,d:111表示这四个值的平均比特的大小。
除了以2为底,我们还可以以其他对数为底,比如自然对数:
H
[
x
]
=
−
∑
x
p
(
x
)
l
n
p
(
x
)
\pmb{H}[\pmb{x}]=-\sum_x \pmb{p}(\pmb{x})\mathbf{ln} \pmb{p}(\pmb{x})
HHH[xxx]=−x∑ppp(xxx)lnppp(xxx)
连续分布:
H
[
x
]
=
−
∫
x
p
(
x
)
l
n
p
(
x
)
d
x
\pmb{H}[\pmb{x}]=-\int_x \pmb{p}(\pmb{x})\mathbf{ln} \pmb{p}(\pmb{x})\pmb{dx}
HHH[xxx]=−∫xppp(xxx)lnppp(xxx)dxdxdx
现在假设某个分布满足:
∫
x
p
(
x
)
d
x
=
1
\int_x \pmb{p}(\pmb{x})\pmb{dx}=1
∫xppp(xxx)dxdxdx=1
∫
x
x
p
(
x
)
d
x
=
μ
\int_x \pmb{x}\pmb{p}(\pmb{x})\pmb{dx}=\mu
∫xxxxppp(xxx)dxdxdx=μ
∫
x
(
x
−
μ
)
2
p
(
x
)
d
x
=
σ
2
\int_x (\pmb{x}-\pmb{\mu})^2\pmb{p}(\pmb{x})\pmb{dx}=\sigma^2
∫x(xxx−μμμ)2ppp(xxx)dxdxdx=σ2
在这些假设下,为了使
H
[
x
]
\pmb{H}[\pmb{x}]
HHH[xxx]最大,其拉格朗日(Lagrange)函数为:
−
∫
x
p
(
x
)
l
n
p
(
x
)
d
x
+
λ
1
(
∫
x
p
(
x
)
d
x
−
1
)
+
λ
2
(
∫
x
x
p
(
x
)
d
x
−
μ
)
+
λ
3
(
∫
x
(
x
−
μ
)
2
p
(
x
)
d
x
−
σ
2
)
-\int_x \pmb{p}(\pmb{x})\mathbf{ln} \pmb{p}(\pmb{x})\pmb{dx}+\lambda_1(\int_x \pmb{p}(\pmb{x})\pmb{dx}-1)+\lambda_2(\int_x \pmb{x}\pmb{p}(\pmb{x})\pmb{dx}-\mu)+\lambda_3(\int_x (\pmb{x}-\pmb{\mu})^2\pmb{p}(\pmb{x})\pmb{dx}-\sigma^2)
−∫xppp(xxx)lnppp(xxx)dxdxdx+λ1(∫xppp(xxx)dxdxdx−1)+λ2(∫xxxxppp(xxx)dxdxdx−μ)+λ3(∫x(xxx−μμμ)2ppp(xxx)dxdxdx−σ2)
即:
∫
x
[
−
p
l
n
p
+
λ
1
p
+
λ
2
x
p
+
λ
3
(
x
−
μ
2
)
p
]
d
x
+
c
o
n
s
t
=
∫
x
G
(
p
,
x
)
d
x
+
c
o
n
s
t
\int_x [-\pmb{p}\mathbf{ln} \pmb{p}+\lambda_1\pmb{p}+\lambda_2\pmb{x}\pmb{p}+\lambda_3(\pmb{x-\mu^2})\pmb{p}]\pmb{dx}+\pmb{const}=\int_x \pmb{G}(\pmb{p},\pmb{x})\pmb{dx}+\pmb{const}
∫x[−ppplnppp+λ1ppp+λ2xxxppp+λ3(x−μ2x−μ2x−μ2)ppp]dxdxdx+constconstconst=∫xGGG(ppp,xxx)dxdxdx+constconstconst
利用变分法中的欧拉-拉格朗日方程:
∂
G
∂
p
−
d
d
x
(
∂
G
∂
p
′
)
=
0
\frac{\partial\pmb{G}}{\partial\pmb{p}}-\frac{\pmb{d}}{\pmb{dx}}\left(\frac{\partial\pmb{G}}{\partial\pmb{p}^{'}}\right)=0
∂ppp∂GGG−dxdxdxddd(∂ppp′∂GGG)=0
我们得到使得
H
[
x
]
\pmb{H}[\pmb{x}]
HHH[xxx]最大的
p
(
x
)
\pmb{p}(\pmb{x})
ppp(xxx)需要满足:
l
n
p
(
x
)
=
−
1
+
λ
1
+
λ
2
x
+
λ
3
(
x
−
μ
)
2
\mathbf{ln}\pmb{p}(\pmb{x})=-1+\lambda_1+\lambda_2\pmb{x}+\lambda_3(\pmb{x-\mu})^2
lnppp(xxx)=−1+λ1+λ2xxx+λ3(x−μx−μx−μ)2
即:
p
(
x
)
=
e
x
p
(
−
1
+
λ
1
+
λ
2
x
+
λ
3
(
x
−
μ
)
2
)
\pmb{p}(\pmb{x})=\mathbf{exp}(-1+\lambda_1+\lambda_2\pmb{x}+\lambda_3(\pmb{x-\mu})^2)
ppp(xxx)=exp(−1+λ1+λ2xxx+λ3(x−μx−μx−μ)2)
带入约束中,不难解出:
p
(
x
)
=
1
2
π
σ
e
x
p
{
(
x
−
μ
)
2
2
σ
2
}
\pmb{p}(\pmb{x})=\frac{1}{\sqrt{2\pi}\sigma}\mathbf{exp}\{\frac{(\pmb{x-\mu})^2}{2\sigma^2}\}
ppp(xxx)=2πσ1exp{2σ2(x−μx−μx−μ)2}
即高斯分布是满足约束下,熵最大的分布。
更多的损失函数与正则
接下来,我们讨论其他的损失函数与正则。
事实上,如果我们考虑更一般的分布:
p
(
x
∣
σ
2
,
q
)
=
q
2
(
2
σ
2
)
1
/
q
Γ
(
1
/
q
)
e
x
p
{
−
∣
x
∣
q
2
σ
2
}
\pmb{p}(x|\sigma^2,q)=\frac{q}{2(2\sigma^2)^{1/q}\Gamma(1/q)}\mathbf{exp}\{-\frac{|x|^q}{2\sigma^2}\}
ppp(x∣σ2,q)=2(2σ2)1/qΓ(1/q)qexp{−2σ2∣x∣q}
不难得出:
l
n
p
(
x
∣
σ
2
,
q
)
=
−
∣
x
∣
q
2
σ
2
+
c
o
n
s
t
\mathbf{ln}\pmb{p}(x|\sigma^2,q)=-\frac{|x|^q}{2\sigma^2}+\pmb{const}
lnppp(x∣σ2,q)=−2σ2∣x∣q+constconstconst
在回归问题中,如果我们用这个分布作为预测值与目标值之间误差的分布:
t
=
y
(
x
,
w
)
+
ϵ
,
ϵ
∼
p
(
ϵ
∣
σ
2
,
q
)
\pmb{t}=\pmb{y}(\pmb{x},\pmb{w})+\epsilon,\epsilon\sim\pmb{p}(\epsilon|\sigma^2,q)
ttt=yyy(xxx,www)+ϵ,ϵ∼ppp(ϵ∣σ2,q)
那么,对应的损失函数为
L
q
\pmb{L}_q
LLLq损失函数:
∣
y
(
x
,
w
)
−
t
∣
q
|\pmb{y}(\pmb{x},\pmb{w})-\pmb{t}|^q
∣yyy(xxx,www)−ttt∣q
如果我们认为参数
w
\pmb{w}
www的先验服从该分布:
w
∼
p
(
w
∣
σ
2
,
p
)
\pmb{w}\sim\pmb{p}(\pmb{w}|\sigma^2,\pmb{p})
www∼ppp(www∣σ2,ppp)
那么,对应的正则项为
L
p
\pmb{L}_p
LLLp正则项:
∣
w
∣
p
|\pmb{w}|_p
∣www∣p
当
p
=
1
\pmb{p}=1
ppp=1时,我们相当于加了一个
L
1
\pmb{L}_1
LLL1范数的正则项,即Lasso,它通常具有稀疏的作用,原因是此时参数的先验分布大概长这个样子:
总结
总而言之,优化损失函数与正则项,其实代表的是对参数 w \pmb{w} www的极大似然或者极大后验估计,不同的损失函数和正则项,反映的是我们对参数先验分布和似然函数不同的假设。
注:
本文转自知乎https://zhuanlan.zhihu.com/p/33568166,仅供自身学习使用。