机器学习--线性回归(二)先验与正则化

上一篇我们提到了线性回归,线性回归是麻雀虽小,五脏俱全。定义模型、策略、方法,往后学习的机器学习算法基本上都是这样的套路。这一篇里,我们来讨论一下线性回归里的正则化。

正则化

很多接触过机器学习的同学的人都听过正则化是为了防止过拟合,很简单啊,不就是:

l(W)=12i=1n(yiWxi)2+λ||W||22(2) (2) l ( W ) = 1 2 ∑ i = 1 n ( y i − W x i ) 2 + λ | | W | | 2 2

重写了损失函数,加入的后半部分是正则化项,整个损失函数的目的直观上理解是既要让模型拟合训练样本,又要防止模型过于复杂出现正则化。
正则化讲到这里就可以结束了,可以拿去用了。但是,这里面也是有的门道的。

先验

话说统计学有两大门派,一个唤作频率学派,一个唤作贝叶斯学派。这两个学派相爱相杀的故事这里就不展开。跟我们这一章有关系的是,频率学派认为,模型参数的固定的,这是目前未知而已。我们的任务就是从固定但未知的模型参数随机生出的训练样本中估计出参数。而贝叶斯学派认为,岂止样本是随机变量,连模型参数都是服从某种分布的随机变量!这个就6了。既然参数也是服从某种分布的随机变量。那我们在估计模型的时候,就要将参数的概率函数考虑进去,我们假设参数服从标准正太分布:

p(W)=jN(Wj|0,τ2) p ( W ) = ∏ j N ( W j | 0 , τ 2 )

相应的最大后验概率估计(MAP,此时就不是MLE了)变成了:
argmaxwlog(i=1nN(yi|WTxi,σ2)P(W))=i=1nlogN(yi|WTxi,σ2)+jlogN(Wj|0,τ2) a r g m a x w log ⁡ ( ∏ i = 1 n N ( y i | W T x i , σ 2 ) P ( W ) ) = ∑ i = 1 n l o g N ( y i | W T x i , σ 2 ) + ∑ j l o g N ( W j | 0 , τ 2 )

大家讲后半部分推算下来就能得到我们的正则化项了 ,对,就是这么神奇!
再告诉大家一个秘密,如果我们假设参数服从拉普拉斯分布,我们将得到另一种正则化项,L1范数,不信你试试!

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值