当我们优化损失函数时,我们到底在优化什么?

高能预警:本文涉及大量的数学推导,如有不适,概不负责。

回归问题与平方误差和

在回归问题(regression problems)中,我们常用平方误差和(sum of squares)来衡量模型的好坏。

回归问题可以定义如下:
给定一个包含 N \pmb{N} NNN 个数据集的训练集 x ≡ { x 1 , x 2 , x 3 , . . . , x N } \mathbf{x}\equiv\{\pmb{x_1},\pmb{x_2},\pmb{x_3},...,\pmb{x_N}\} x{x1x1x1,x2x2x2,x3x3x3,...,xNxNxN},以及这些数据对应的目标值 t = { t 1 , t 2 , t 3 , . . . , t N } \mathbf{t}=\{\pmb{t_1},\pmb{t_2},\pmb{t_3},...,\pmb{t_N}\} t={t1t1t1,t2t2t2,t3t3t3,...,tNtNtN},回归问题的目标是利用这组训练集,寻找一个合适的模型,来预测一个新的数据点 x ^ \hat{x} x^对应的目标值 t ^ \hat{t} t^。记模型的参数为 w \pmb{w} www,模型对应的函数为 y \pmb{y} yyy,模型的预测值可以相应表示为 y ( x , w ) \pmb{y}(\pmb{x},\pmb{w}) yyy(xxx,www)

为了衡量模型的好坏,需要一种方法衡量预测值与目标值之间的误差,一个常用的选择是平方误差和:
E ( w ) = 1 2 ∑ n = 1 N { y ( x , w ) − t n } 2 \pmb{E}(\pmb{w})=\frac{1}{2}\sum_{n=1}^N \{\pmb{y}(\pmb{x},\pmb{w})-\pmb{t_n}\}^2 EEE(www)=21n=1N{yyy(xxx,www)tntntn}2

平方误差和函数可以看成是每个数据点 x n \pmb{x_n} xnxnxn的预测值 y ( x n , w ) \pmb{y}(\pmb{x_n},\pmb{w}) yyy(xnxnxn,www)到真实目标值 t n \pmb{t_n} tntntn的误差平方和的一半。

111
不同的参数 w \pmb{w} www对应于不同的误差函数 E ( w ) \pmb{E}(\pmb{w}) EEE(www),因此,回归问题的目标通常是找到一组参数 w ∗ \pmb{w}^\ast www使得误差函数 E ( w ) \pmb{E}(\pmb{w}) EEE(www)最小化。

那么最小化 E ( w ) \pmb{E}(\pmb{w}) EEE(www)究竟有什么意义呢?
在回答这个问题之前,我们需要先复习一下概率论的知识点。

贝叶斯概率

先复习一下与条件概率相关的贝叶斯公式:
p ( x ∣ y ) = p ( y ∣ x ) p ( x ) p ( y ) \pmb{p}(x|y)=\frac{\pmb{p}(y|x)\pmb{p}(x)}{\pmb{p}(y)} ppp(xy)=ppp(y)ppp(yx)ppp(x)
对于回归问题来说,如果我们记训练集为 D \mathcal{D} D,那么对于模型函数 w \pmb{w} www来说,贝叶斯公式给出:
p ( w ∣ D ) = p ( D ∣ w ) p ( w ) p ( D ) \pmb{p}(w|\mathcal{D})=\frac{\pmb{p}(\mathcal{D}|w)\pmb{p}(w)}{\pmb{p}(\mathcal{D})} ppp(wD)=ppp(D)ppp(Dw)ppp(w)
其中 p ( w ) \pmb{p}(w) ppp(w)表示的是参数 w \pmb{w} www的先验(prior)分布; p ( D ∣ w ) \pmb{p}(\mathcal{D}|w) ppp(Dw)是给定参数为 w \pmb{w} www的情况下,训练数据为 D \mathcal{D} D的可能性,我们也可以把它看成一个关于 w \pmb{w} www的函数,这个函数又叫做似然函数(likelihood function); p ( w ∣ D ) \pmb{p}(w|\mathcal{D}) ppp(wD)是参数 w \pmb{w} www在给定数据 D \mathcal{D} D下的后验(posterior)分布。

给定这些定义,贝叶斯公式可以表示成:
p o s t e r i o r ∝ l i k e l i h o o d × p r i o r \mathbf{posterior}\varpropto\mathbf{likelihood}\times\mathbf{prior} posteriorlikelihood×prior
即后验正比于似然与先验的乘积。

似然函数是一个非常重要的概念。通过极大似然函数 p ( D ∣ w ) \pmb{p}(\mathcal{D}|w) ppp(Dw),我们可以找到一个最优的参数 w ∗ \pmb{w}^\ast www,使得在这组参数设定下,出现训练数据 D \mathcal{D} D的可能性 p ( D ∣ w ) \pmb{p}(\mathcal{D}|w) ppp(Dw)最大。这组参数在统计学上叫做参数 w \pmb{w} www的极大似然估计。

极大似然与回归问题

我们在初中阶段就学到了在做实验时,需要多次取样取平均的方法来减少随机误差,而误差有两种:系统误差和随机误差,那么在实际取样计算的过程中,系统误差是不可避免的。

同理,在回归问题中, x \pmb{x} xxx的测量值 t \pmb{t} ttt会存在一定的误差。

假定对所有的数据点 x \pmb{x} xxx,模型预测值 y ( x n , w ) \pmb{y}(\pmb{x_n},\pmb{w}) yyy(xnxnxn,www)与目标值 t \pmb{t} ttt之间的误差是一样的,并服从一定的概率分布,比如均值为0,方差为 β − 1 = σ 2 \beta^{-1}=\sigma^2 β1=σ2的高斯分布,则有:
p ( t − y ( x , w ) ∣ x , w , β ) ∼ N ( t − y ( x , w ) ∣ 0 , β − 1 ) \pmb{p}(t-y(x, w)|x,w,\beta)\sim\mathcal{N}(t-y(x,w)|0,\beta^{-1}) ppp(ty(x,w)x,w,β)N(ty(x,w)0,β1)
即:
p ( t ∣ x , w , β ) ∼ N ( t ∣ y ( x , t ) , β − 1 ) \pmb{p}(t|x,w,\beta)\sim\mathcal{N}(t|y(x,t),\beta^{-1}) ppp(tx,w,β)N(ty(x,t),β1)

222

对于一组独立同分布的数据点 x ≡ { x 1 , x 2 , x 3 , . . . , x N } \mathbf{x}\equiv\{\pmb{x_1},\pmb{x_2},\pmb{x_3},...,\pmb{x_N}\} x{x1x1x1,x2x2x2,x3x3x3,...,xNxNxN},以及这些数据对应的目标值 t = { t 1 , t 2 , t 3 , . . . , t N } \mathbf{t}=\{\pmb{t_1},\pmb{t_2},\pmb{t_3},...,\pmb{t_N}\} t={t1t1t1,t2t2t2,t3t3t3,...,tNtNtN},我们得到关于这组数据的似然函数:
p ( t ∣ x , w , β − 1 ) = ∏ n = 1 N p ( t n ∣ x n , w , β − 1 ) = ∏ n = 1 N N ( t n ∣ y ( x n , w ) , β − 1 ) \pmb{p}(t|x,w,\beta^{-1})=\prod_{n=1}^N \pmb{p}(t_{n}|x_{n},w,\beta^{-1})=\prod_{n=1}^N \mathcal{N}(t_{n}|y(x_{n},w),\beta^{-1}) ppp(tx,w,β1)=n=1Nppp(tnxn,w,β1)=n=1NN(tny(xn,w),β1)
其中,高斯分布的概率函数为:
N ( t ∣ y ( x , t ) , β − 1 ) = ( β 2 π ) e x p { − β 2 [ t − y ( x , w ) ] 2 } \mathcal{N}(t|y(x,t),\beta^{-1})=\left(\frac{\beta}{2\pi}\right)\mathbf{exp}\{-\frac{\beta}{2}[t-y(x,w)]^2\} N(ty(x,t),β1)=(2πβ)exp{2β[ty(x,w)]2}
可以通过极大化这个似然函数得到关于 w \pmb{w} www的一组极大似然解。

不过,更方便的做法是极大对数似然函数,因为对数函数是严格单调递增的,所以极大对数似然的解与极大似然的解是相同的

对数似然函数为:
l n p ( t ∣ x , w , β − 1 ) = − β 2 ∑ n = 1 N { y ( x n , w ) − t 2 } + N 2 l n β − N 2 l n 2 π \mathbf{ln}p(t|x,w,\beta^{-1})=-\frac{\beta}{2}\sum_{n=1}^N \{y(x_{n},w)-t^2\}+\frac{N}{2}\mathbf{ln}\beta-\frac{N}{2}\mathbf{ln}2\pi lnp(tx,w,β1)=2βn=1N{y(xn,w)t2}+2Nlnβ2Nln2π
如果我们你不考虑 β \beta β的影响,那么,对于参数 w \pmb{w} www来说,最小化平方误差和的解,就等于极大对数似然的估计

因此,最小化平方误差和 E ( w ) \pmb{E}(\pmb{w}) EEE(www)与极大似然等价,考虑到似然函数的定义,优化 E ( w ) \pmb{E}(\pmb{w}) EEE(www)相当于在给定高斯误差的假设下,寻找一组 w \pmb{w} www使得观察到目标值 t \pmb{t} ttt的概率最大

分类问题与交叉熵损失

现在我们考虑另一类问题----分类问题。

我们同样给出定义:
给定一个包含 N \pmb{N} NNN 个数据集的训练集 x ≡ { x 1 , x 2 , x 3 , . . . , x N } \mathbf{x}\equiv\{\pmb{x_1},\pmb{x_2},\pmb{x_3},...,\pmb{x_N}\} x{x1x1x1,x2x2x2,x3x3x3,...,xNxNxN},以及这些数据对应的目标值 t = { t 1 , t 2 , t 3 , . . . , t N } \mathbf{t}=\{\pmb{t_1},\pmb{t_2},\pmb{t_3},...,\pmb{t_N}\} t={t1t1t1,t2t2t2,t3t3t3,...,tNtNtN},这里, t n ∈ { 1 , 2 , 3 , . . . , K } \mathbf{t_{n}}\in\{\pmb{1},\pmb{2},\pmb{3},...,\pmb{K}\} tn{111,222,333,...,KKK},分类问题的目标是利用这组训练集,寻找一个合适的模型,来预测一个新的数据点 x ^ \hat{\pmb{x}} xxx^对用的类别 t ^ \hat{\pmb{t}} ttt^。现在假设模型的参数为 w \pmb{w} www,模型输出是属于每一类的概率,预测为第 k ∈ { 1 , 2 , 3 , . . . , K } \mathbf{k}\in\{\pmb{1},\pmb{2},\pmb{3},...,\pmb{K}\} k{111,222,333,...,KKK}类的概率为 y ( x , w ) \pmb{y}(\pmb{x},\pmb{w}) yyy(xxx,www)

对于样本 x \pmb{x} xxx,其属于第 t \pmb{t} ttt类的概率为:
p ( t ∣ x , w ) = ∏ k = 1 K p ( y = t ∣ x , w ) 1 t = k \pmb{p}(t|x,w)=\prod_{k=1}^K \pmb{p}(y=t|x,w)^{1_{t=k}} ppp(tx,w)=k=1Kppp(y=tx,w)1t=k
其中:
1 t = k = { 1 , t = k 0 , t ≠ k \mathbf{1}_{t=k} = \begin{cases} 1, & t=k \\ 0, & t\neq k \end{cases} 1t=k={1,0,t=kt̸=k
因此,似然函数为:
p ( t ∣ x , w ) = ∑ n = 1 N ∑ k = 1 K 1 t = k l o g p ( t n ∣ x n , w ) \pmb{p}(\mathbf{t}|\mathbf{x},w)=\sum_{n=1}^N\sum_{k=1}^K \mathbf{1}_{t=k}\mathbf{log}\pmb{p}(\pmb{t_n}|\pmb{x_n},w) ppp(tx,w)=n=1Nk=1K1t=klogppp(tntntnxnxnxn,w)
极大化对数似然,相当于极小化:
− ∑ n = 1 N ∑ k = 1 K 1 t = k l o g p ( t n ∣ x n , w ) -\sum_{n=1}^N\sum_{k=1}^K \mathbf{1}_{t=k}\mathbf{log}\pmb{p}(\pmb{t_n}|\pmb{x_n},w) n=1Nk=1K1t=klogppp(tntntnxnxnxn,w)
事实上,这正是我们常使用的多类交叉熵损失函数的表示形式。

因此,在分类问题中,最小化交叉熵损失函数相当于样本的极大似然函数。

正则项

在优化目标函数时,处理正常的损失函数外,为了防止过拟合,我们通常会加入一些正则项,比如权值衰减(weight decay),lasso等等。

比如,在回归问题中,使用权值衰减后,目标函数可能是:
E ( w ) = 1 2 ∑ n = 1 N { y ( x , w ) − t n } 2 + λ w ⊤ w \pmb{E}(\pmb{w})=\frac{1}{2}\sum_{n=1}^N \{\pmb{y}(\pmb{x},\pmb{w})-\pmb{t_n}\}^2+\lambda\pmb{w}^{\top}\pmb{w} EEE(www)=21n=1N{yyy(xxx,www)tntntn}2+λwwwwww
这里,我们假定 w \pmb{w} www可以被拉长表示为一个一维向量。
此时,优化这个目标函数就不能用极大似然来解释了。
不过,如果我们观察贝叶斯公式:
p ( x ∣ y ) = p ( y ∣ x ) p ( x ) p ( y ) \pmb{p}(x|y)=\frac{\pmb{p}(y|x)\pmb{p}(x)}{\pmb{p}(y)} ppp(xy)=ppp(y)ppp(yx)ppp(x)
以及:
p o s t e r i o r ∝ l i k e l i h o o d × p r i o r \mathbf{posterior}\varpropto\mathbf{likelihood}\times\mathbf{prior} posteriorlikelihood×prior
我们会发现,如果两边去对数,那么就有:
l n p ( w ∣ D ) = l n p ( D ∣ w ) + l n p ( w ) + c o n s t \mathbf{ln}\pmb{p}(w|\mathcal{D})=\mathbf{ln}\pmb{p}(\mathcal{D}|w)+\mathbf{ln}\pmb{p}(w)+\pmb{const} lnppp(wD)=lnppp(Dw)+lnppp(w)+constconstconst
那么,我们加入的正则项,是不是对应于 w \pmb{w} www的先验概率 p ( w ) \pmb{p}(\pmb{w}) ppp(www)呢?
答案是肯定的。

如果给出参数 w \pmb{w} www侧先验概率,那么极大后验估计(Maximize a Posterior, MAP)是能给出类似带正则项目标函数 E ( w ) \pmb{E}(\pmb{w}) EEE(www)的结构的。

问题是什么样的先验会给出类似权值衰减的正则项呢?
一个通常的想法是我们认为参数 w \pmb{w} www服从的先验分布是一个均值为0,方差为 α − 1 I \alpha^{-1}\pmb{I} α1III的D维高斯分布,那么,我们有:
p ( w ∣ α ) = N ( 0 , α − 1 I ) = ( α 2 π ) D 2 e x p { − α 2 w ⊤ w } \pmb{p}(w|\alpha)=\mathcal{N}(0,\alpha^{-1}\pmb{I})=\left(\frac{\alpha}{2\pi}\right)^{\frac{D}{2}}\mathbf{exp}\{-\frac{\alpha}{2}\pmb{w}^{\top}\pmb{w}\} ppp(wα)=N(0,α1III)=(2πα)2Dexp{2αwwwwww}
其对数为:
l n p ( w ∣ α ) = − α 2 w ⊤ w + c o n s t \mathbf{ln}\pmb{p}(w|\alpha)=-\frac{\alpha}{2}\pmb{w}^{\top}\pmb{w}+\pmb{const} lnppp(wα)=2αwwwwww+constconstconst
结合我们之前的推导,我们有:
l n p ( w ∣ t , x , β , α ) = l n p ( t ∣ x , w , β ) + l n p ( w ∣ α ) \mathbf{ln}\pmb{p}(w|\mathbf{t},\mathbf{x}, \beta,\alpha)=\mathbf{ln}\pmb{p}(\mathbf{t}|\mathbf{x}, w,\beta)+\mathbf{ln}\pmb{p}(w|\alpha) lnppp(wt,x,β,α)=lnppp(tx,w,β)+lnppp(wα)
= − β 2 ∑ n = 1 N { y ( x , w ) − t n } 2 − α 2 w ⊤ w + c o n s t =-\frac{\beta}{2}\sum_{n=1}^N \{\pmb{y}(\pmb{x},\pmb{w})-\pmb{t_n}\}^2-\frac{\alpha}{2}\pmb{w}^{\top}\pmb{w}+\pmb{const} =2βn=1N{yyy(xxx,www)tntntn}22αwwwwww+constconstconst
因此,加权值衰减的正则与高斯分布先验下极大后验估计的结果一致。
对于分类问题,该结论依然成立。

为什么是高斯分布?

我们已经解释了目标函数中优化某些损失韩式和正则项的意义。在解释更多的损失函数和正则项之前,需要先解决一个问题。

为什么是高斯分布?怎么老是高斯分布?

先给出结论:
对于一个连续随机变量 x \pmb{x} xxx,在给定均值和方差的约束下,交叉信息熵最大的分布是高斯分布

熵是描述系统混乱度的概念,热力学第二定律告诉我们,在没有外力作用时,熵总是趋于自增的,因此,上面的结论告诉我们,生活中很多现象服从高斯分布并不是偶然

我们先引出信息熵的概念。

先考虑一个离散的随机变量 X \pmb{X} XXX,给定一个该随机变量的观察值 x \pmb{x} xxx,希望用一个函数 h ( x ) \pmb{h}(\pmb{x}) hhh(xxx)去衡量 x \pmb{x} xxx所携带的信息量。一般来说,如果 x \pmb{x} xxx是一件发生概率极低的事情,那么我们会觉得它很有信息量,反之,如果 x \pmb{x} xxx是一件经常发生的事情,那么我们会觉得信息量很少。因此,信息量会和 x \pmb{x} xxx发生的概率 p ( x ) \pmb{p}(\pmb{x}) ppp(xxx)相关。

另一方面,我们认为,如果两个事件 x \pmb{x} xxx y \pmb{y} yyy是相互独立的,那么,我们认为两者携带的信息量是各自信息量之和:
h ( x , y ) = h ( x ) + h ( y ) \pmb{h}(\pmb{x},\pmb{y})=\pmb{h}(\pmb{x})+\pmb{h}(\pmb{y}) hhh(xxx,yyy)=hhh(xxx)+hhh(yyy)
另一方面,独立性给出:
p ( x , y ) = p ( x ) p ( y ) \pmb{p}(\pmb{x},\pmb{y})=\pmb{p}(\pmb{x})\pmb{p}(\pmb{y}) ppp(xxx,yyy)=ppp(xxx)ppp(yyy)
再考虑约束,当 p ( x ) = 1 \pmb{p}(\pmb{x})=1 ppp(xxx)=1时, h ( x ) = 0 \pmb{h}(\pmb{x})=0 hhh(xxx)=0,不难看出,符合条件的是概率密度的对数函数,不妨定义为:
h ( x ) = − l o g 2 p ( x ) \pmb{h}(\pmb{x})=-\mathbf{log}_2 \pmb{p}(\pmb{x}) hhh(xxx)=log2ppp(xxx)
这里,使用以2为底的对数并不是必须的,也可以使用其它底。不过使用2为底,信息的单位就变成了bit。

对于一个离散分布 X \pmb{X} XXX来说,其信息的期望为:
H [ x ] = − ∑ x p ( x ) l o g 2 p ( x ) \pmb{H}[\pmb{x}]=-\sum_x \pmb{p}(\pmb{x})\mathbf{log}_2 \pmb{p}(\pmb{x}) HHH[xxx]=xppp(xxx)log2ppp(xxx)
我们把 H [ x ] \pmb{H}[\pmb{x}] HHH[xxx]叫做这个随机变量的熵。
比如说,对于一个等概率,取值为8个的离散分布,其熵为:
H = − 8 × 1 8 × l o g 2 1 8 = 3 b i t s \pmb{H}=-8\times\frac{1}{8}\times\mathbf{log}_2 \frac{1}{8}=3bits HHH=8×81×log281=3bits
3比特正是用二进制表示这8个值所需要的大小。
再比如说,考虑取值为 a , b , c , d a,b,c,d a,b,c,d,概率为 1 2 , 1 4 , 1 8 , 1 8 \frac{1}{2},\frac{1}{4},\frac{1}{8},\frac{1}{8} 21,41,81,81的分布,其熵为:
H = − ( 1 2 l o g 2 1 2 + 1 4 l o g 2 1 4 + 2 × 1 8 l o g 2 1 8 ) = 1.75 b i t s \pmb{H}=-\left(\frac{1}{2}log_2 \frac{1}{2}+\frac{1}{4}log_2 \frac{1}{4}+2\times\frac{1}{8}log_2 \frac{1}{8}\right)=1.75bits HHH=(21log221+41log241+2×81log281)=1.75bits
而这正是用霍夫曼编码a:0,b:10,c:110,d:111表示这四个值的平均比特的大小。
除了以2为底,我们还可以以其他对数为底,比如自然对数:
H [ x ] = − ∑ x p ( x ) l n p ( x ) \pmb{H}[\pmb{x}]=-\sum_x \pmb{p}(\pmb{x})\mathbf{ln} \pmb{p}(\pmb{x}) HHH[xxx]=xppp(xxx)lnppp(xxx)
连续分布:
H [ x ] = − ∫ x p ( x ) l n p ( x ) d x \pmb{H}[\pmb{x}]=-\int_x \pmb{p}(\pmb{x})\mathbf{ln} \pmb{p}(\pmb{x})\pmb{dx} HHH[xxx]=xppp(xxx)lnppp(xxx)dxdxdx
现在假设某个分布满足:
∫ x p ( x ) d x = 1 \int_x \pmb{p}(\pmb{x})\pmb{dx}=1 xppp(xxx)dxdxdx=1
∫ x x p ( x ) d x = μ \int_x \pmb{x}\pmb{p}(\pmb{x})\pmb{dx}=\mu xxxxppp(xxx)dxdxdx=μ
∫ x ( x − μ ) 2 p ( x ) d x = σ 2 \int_x (\pmb{x}-\pmb{\mu})^2\pmb{p}(\pmb{x})\pmb{dx}=\sigma^2 x(xxxμμμ)2ppp(xxx)dxdxdx=σ2
在这些假设下,为了使 H [ x ] \pmb{H}[\pmb{x}] HHH[xxx]最大,其拉格朗日(Lagrange)函数为:
− ∫ x p ( x ) l n p ( x ) d x + λ 1 ( ∫ x p ( x ) d x − 1 ) + λ 2 ( ∫ x x p ( x ) d x − μ ) + λ 3 ( ∫ x ( x − μ ) 2 p ( x ) d x − σ 2 ) -\int_x \pmb{p}(\pmb{x})\mathbf{ln} \pmb{p}(\pmb{x})\pmb{dx}+\lambda_1(\int_x \pmb{p}(\pmb{x})\pmb{dx}-1)+\lambda_2(\int_x \pmb{x}\pmb{p}(\pmb{x})\pmb{dx}-\mu)+\lambda_3(\int_x (\pmb{x}-\pmb{\mu})^2\pmb{p}(\pmb{x})\pmb{dx}-\sigma^2) xppp(xxx)lnppp(xxx)dxdxdx+λ1(xppp(xxx)dxdxdx1)+λ2(xxxxppp(xxx)dxdxdxμ)+λ3(x(xxxμμμ)2ppp(xxx)dxdxdxσ2)
即:
∫ x [ − p l n p + λ 1 p + λ 2 x p + λ 3 ( x − μ 2 ) p ] d x + c o n s t = ∫ x G ( p , x ) d x + c o n s t \int_x [-\pmb{p}\mathbf{ln} \pmb{p}+\lambda_1\pmb{p}+\lambda_2\pmb{x}\pmb{p}+\lambda_3(\pmb{x-\mu^2})\pmb{p}]\pmb{dx}+\pmb{const}=\int_x \pmb{G}(\pmb{p},\pmb{x})\pmb{dx}+\pmb{const} x[ppplnppp+λ1ppp+λ2xxxppp+λ3(xμ2xμ2xμ2)ppp]dxdxdx+constconstconst=xGGG(ppp,xxx)dxdxdx+constconstconst
利用变分法中的欧拉-拉格朗日方程:
∂ G ∂ p − d d x ( ∂ G ∂ p ′ ) = 0 \frac{\partial\pmb{G}}{\partial\pmb{p}}-\frac{\pmb{d}}{\pmb{dx}}\left(\frac{\partial\pmb{G}}{\partial\pmb{p}^{'}}\right)=0 pppGGGdxdxdxddd(pppGGG)=0
我们得到使得 H [ x ] \pmb{H}[\pmb{x}] HHH[xxx]最大的 p ( x ) \pmb{p}(\pmb{x}) ppp(xxx)需要满足:
l n p ( x ) = − 1 + λ 1 + λ 2 x + λ 3 ( x − μ ) 2 \mathbf{ln}\pmb{p}(\pmb{x})=-1+\lambda_1+\lambda_2\pmb{x}+\lambda_3(\pmb{x-\mu})^2 lnppp(xxx)=1+λ1+λ2xxx+λ3(xμxμxμ)2
即:
p ( x ) = e x p ( − 1 + λ 1 + λ 2 x + λ 3 ( x − μ ) 2 ) \pmb{p}(\pmb{x})=\mathbf{exp}(-1+\lambda_1+\lambda_2\pmb{x}+\lambda_3(\pmb{x-\mu})^2) ppp(xxx)=exp(1+λ1+λ2xxx+λ3(xμxμxμ)2)
带入约束中,不难解出:
p ( x ) = 1 2 π σ e x p { ( x − μ ) 2 2 σ 2 } \pmb{p}(\pmb{x})=\frac{1}{\sqrt{2\pi}\sigma}\mathbf{exp}\{\frac{(\pmb{x-\mu})^2}{2\sigma^2}\} ppp(xxx)=2π σ1exp{2σ2(xμxμxμ)2}
即高斯分布是满足约束下,熵最大的分布。

更多的损失函数与正则

接下来,我们讨论其他的损失函数与正则。
事实上,如果我们考虑更一般的分布:
p ( x ∣ σ 2 , q ) = q 2 ( 2 σ 2 ) 1 / q Γ ( 1 / q ) e x p { − ∣ x ∣ q 2 σ 2 } \pmb{p}(x|\sigma^2,q)=\frac{q}{2(2\sigma^2)^{1/q}\Gamma(1/q)}\mathbf{exp}\{-\frac{|x|^q}{2\sigma^2}\} ppp(xσ2,q)=2(2σ2)1/qΓ(1/q)qexp{2σ2xq}
不难得出:
l n p ( x ∣ σ 2 , q ) = − ∣ x ∣ q 2 σ 2 + c o n s t \mathbf{ln}\pmb{p}(x|\sigma^2,q)=-\frac{|x|^q}{2\sigma^2}+\pmb{const} lnppp(xσ2,q)=2σ2xq+constconstconst
在回归问题中,如果我们用这个分布作为预测值与目标值之间误差的分布:
t = y ( x , w ) + ϵ , ϵ ∼ p ( ϵ ∣ σ 2 , q ) \pmb{t}=\pmb{y}(\pmb{x},\pmb{w})+\epsilon,\epsilon\sim\pmb{p}(\epsilon|\sigma^2,q) ttt=yyy(xxx,www)+ϵ,ϵppp(ϵσ2,q)
那么,对应的损失函数为 L q \pmb{L}_q LLLq损失函数:
∣ y ( x , w ) − t ∣ q |\pmb{y}(\pmb{x},\pmb{w})-\pmb{t}|^q yyy(xxx,www)tttq
如果我们认为参数 w \pmb{w} www的先验服从该分布:
w ∼ p ( w ∣ σ 2 , p ) \pmb{w}\sim\pmb{p}(\pmb{w}|\sigma^2,\pmb{p}) wwwppp(wwwσ2,ppp)
那么,对应的正则项为 L p \pmb{L}_p LLLp正则项:
∣ w ∣ p |\pmb{w}|_p wwwp
p = 1 \pmb{p}=1 ppp=1时,我们相当于加了一个 L 1 \pmb{L}_1 LLL1范数的正则项,即Lasso,它通常具有稀疏的作用,原因是此时参数的先验分布大概长这个样子:
333

总结

总而言之,优化损失函数与正则项,其实代表的是对参数 w \pmb{w} www的极大似然或者极大后验估计,不同的损失函数和正则项,反映的是我们对参数先验分布和似然函数不同的假设。

注:

本文转自知乎https://zhuanlan.zhihu.com/p/33568166,仅供自身学习使用。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值