正则化和贝叶斯先验

参考自here
事实上如果从贝叶斯的观点,所有的正则化都是来自于对参数分布的先验。现在来看一下为什么Laplace先验会导出L1正则化,Gauss(高斯)先验会导出L2正则化。

高斯分布公式

f ( x ) = 1 2 π δ e x p ( − ( x − μ ) 2 2 δ 2 ) f(x) = \frac{1}{\sqrt{2π}\delta}exp(-\frac{(x-\mu)^2}{2\delta^2}) f(x)=2π δ1exp(2δ2(xμ)2)

最大似然估计

如果数据集 ( X , Y ) (X,Y) (X,Y),并且 Y Y Y是有白噪声(就是与测量得到的 Y Y Y与真实的 Y r e a l Y_{real} Yreal有均值为零的高斯分布误差),目的是用新产生的 X X X来得到 Y Y Y,如果用线性模型来测量,那么有:
f ( x ) = ∑ i ( x i θ i ) + ϵ = X θ T + ϵ f(x) = \sum_i(x_i\theta_i) + \epsilon = X\theta^T+ \epsilon f(x)=i(xiθi)+ϵ=XθT+ϵ
其中 ϵ \epsilon ϵ是白噪声,即 ϵ \epsilon ϵ服从 N ( 0 , δ 2 ) N(0,\delta^2) N(0,δ2)分布。
一对数据集 ( X i , Y i ) (X_i,Y_i) (Xi,Yi)来用,在这个模型中用 X i X_i Xi得到 Y i Y_i Yi的概率是 Y i Y_i Yi服从 N ( f ( X i ) , δ 2 ) N(f(X_i),δ^2) N(f(Xi),δ2):
P ( Y i ∣ X i , θ ) = 1 2 π δ e x p ( − ∣ ∣ f ( X i ) − Y i ∣ ∣ 2 2 δ 2 ) P(Y_i|X_i,\theta) = \frac{1}{\sqrt{2π}\delta}exp(-\frac{||f(X_i)-Y_i||^2}{2\delta^2}) P(YiXi,θ)=2π δ1exp(2δ2f(Xi)Yi2)
假设数据集中每一对数据都是独立的,那么对于数据集来说由 X X X得到 Y Y Y的概率是:
P ( Y i ∣ X i , θ ) = ∏ i 1 2 π δ e x p ( − ∣ ∣ f ( X i ) − Y i ∣ ∣ 2 2 δ 2 ) P(Y_i|X_i,\theta) = \prod_i \frac{1}{\sqrt{2π}\delta}exp(-\frac{||f(X_i)-Y_i||^2}{2\delta^2}) P(YiXi,θ)=i2π δ1exp(2δ2f(Xi)Yi2)
根据决策论可知,可以使概率 P ( Y ∣ X , θ ) P(Y|X,\theta) P(YX,θ)最大的参数 θ ∗ \theta* θ就是最好的参数。那么我们可以直接得到最大似然估计的直观理解:对于一个模型,调整参数 θ \theta θ,使得用X得到Y的概率最大。那么 θ \theta θ可由下式得到:

θ ∗ = a r g m a x θ ( ∏ i 1 2 π ϵ e x p ( − ∣ ∣ f ( X i ) − Y i ∣ ∣ 2 2 δ 2 ) ) = a r g m a x θ ( − 1 2 δ 2 ∑ i ∣ ∣ f ( X i ) − Y i ∣ ∣ 2 + ∑ i l n ( δ 2 π ) = a r g m i n θ ( ∑ i ∣ ∣ f ( X i ) − Y i ∣ ∣ 2 ) \begin{aligned} \theta* &= argmax_\theta(\prod_i \frac{1}{\sqrt{2π}\epsilon}exp(-\frac{||f(X_i)-Y_i||^2}{2\delta^2})) \\ &= argmax_\theta(-\frac{1}{2\delta^2}\sum_i||f(X_i)-Y_i||^2+\sum_iln(\delta\sqrt{2π})\\ & =argmin_\theta(\sum_i||f(X_i)-Y_i||^2) \\ \end{aligned} θ=argmaxθ(i2π ϵ1exp(2δ2f(Xi)Yi2))=argmaxθ(2δ21if(Xi)Yi2+iln(δ2π =argminθ(if(Xi)Yi2)
从最大到最小,中间加了一步 L ( θ ) L(\theta) L(θ) l n L ( θ ) lnL(\theta) lnL(θ)
这就是最小二乘法计算公式,最小(min)二乘(平方) = 使得平方和最小。

所谓最小二乘,其实也可以叫做最小平方和,其目的就是通过最小化误差的平方和,使得拟合对象无限接近目标对象。换句话说,最小二乘法可以用于对函数的拟合。

拉普拉斯分布

概率密度函数分布为:
f ( x ∣ μ , b ) = 1 2 b e x p ( − ∣ x − μ ∣ b ) f(x|\mu,b) = \frac{1}{2b}exp(-\frac{|x-\mu|}{b}) f(xμ,b)=2b1exp(bxμ)
分布图像为:
在这里插入图片描述
可以看到拉普拉斯分布集中在 μ \mu μ附近,而且b越小,分布越集中。

拉普拉斯先验

P ( θ i ) = λ 2 e x p ( − λ ∣ θ i ∣ ) P(\theta_i) = \frac{\lambda}{2}exp(-\lambda|\theta_i|) P(θi)=2λexp(λθi)
其中 λ \lambda λ是控制参数 θ \theta θ集中情况的超采纳数, λ \lambda λ越大,参数的分布就越集中在0附近。
在前面所说的极大似然估计事实上是假设了 θ \theta θ是均匀分布的,也就是 P ( θ ) = c o n s t a n t P(\theta) = constant P(θ)=constant,我们要最大化后验估计,就是:

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值