机器学习笔记:贝叶斯方法与正则化的关系

贝叶斯方法与正则化

统计学分为两个学派:频率派和贝叶斯派。

频率派

频率派常用的参数估计方法为极大似然法(MLE),它的目标是让似然函数最大化,就是求出一个固定参数,这个参数使数据出现的概率最大。

假设数据采样分布为 p ( x ; θ ) p(x;\theta) p(x;θ),即参数为 θ \theta θ时,样本 x x x出现的概率。现在观测到一组数据 x 1 , x 2 , ⋯   , x n x_1,x_2,\cdots,x_n x1,x2,,xn,数据之间是独立同分布,则这组数据出现的概率可表示为:

L ( θ ) = L ( x 1 , x 2 , ⋯   , x n ; θ ) = ∏ i = 1 n p ( x i ; θ ) L(\theta)=L(x_1,x_2,\cdots,x_n;\theta)=\prod_{i=1}^np(x_i;\theta) L(θ)=L(x1,x2,,xn;θ)=i=1np(xi;θ)

L ( θ ) L(\theta) L(θ)称为似然函数,注意 p ( x ; θ ) p(x;\theta) p(x;θ)不是似然函数, L ( x 1 , x 2 , ⋯   , x n ; θ ) L(x_1,x_2,\cdots,x_n;\theta) L(x1,x2,,xn;θ)才是似然函数。

极大似然法就是求解使 L ( θ ) L(\theta) L(θ)最大的 θ \theta θ,这等效于一个最优化问题。

贝叶斯派

贝叶斯派常用的参数估计方法为最大后验估计(MAP),它以贝叶斯公式作为基础。

P ( H ∣ D ) = P ( D ∣ H ) ∗ P ( H ) P ( D ) P(H|D)=\frac{P(D|H)*P(H)}{P(D)} P(HD)=P(D)P(DH)P(H)

式中 P ( H ) P(H) P(H)称为先验概率, P ( D ∣ H ) P(D|H) P(DH)称为似然函数, P ( D ) P(D) P(D)称为证据, P ( H ∣ D ) P(H|D) P(HD)称为后验概率。

先验概率是根据以往经验和分析得到的概率,可以视为 H H H的初始可信程度(贝叶斯派眼中的概率是对事物的主观的可信程度),数据 D D D会作为证据出现,将数据纳入考虑范围后, H H H的初始概率会被更新,新的概率就是 H H H的后验概率。

贝叶斯公式在求 H H H的概率时除了根据数据 D D D,还考虑到了 H H H的历史经验。这一做法和频率派不同,频率派只考虑数据 D D D

p ( θ ; x 1 , x 2 , ⋯   , x n ) = p ( x 1 , x 2 , ⋯   , x n ; θ ) ∗ p ( θ ) p ( x 1 , x 2 , ⋯   , x n ) p(\theta;x_1,x_2,\cdots,x_n) = \frac{p(x_1,x_2,\cdots,x_n;\theta)*p(\theta)}{p(x_1,x_2,\cdots,x_n)} p(θ;x1,x2,,xn)=p(x1,x2,,xn)p(x1,x2,,xn;θ)p(θ)

由于分母是常量,所以

p ( θ ; x 1 , x 2 , ⋯   , x n ) ∝ ∏ i = 1 n p ( x i ; θ ) ∗ p ( θ ) p(\theta;x_1,x_2,\cdots,x_n) \propto \prod_{i=1}^np(x_i;\theta)*p(\theta) p(θ;x1,x2,,xn)i=1np(xi;θ)p(θ)

最大后验估计就是求解使 p ( θ ; x 1 , x 2 , ⋯   , x n ) p(\theta;x_1,x_2,\cdots,x_n) p(θ;x1,x2,,xn)最大的 θ \theta θ,这等效于一个最优化问题。

对比MLE和MAP发现,MAP比MLE多乘了一个先验概率 p ( θ ) p(\theta) p(θ),所以MAP综合考虑了数据和先验概率。

先验信息是在使用数据之前关于分析对象的已知知识,它容易受到主观因素影响。当已有的知识不足以形成先验信息时,贝叶斯派引入了无信息先验,就是未知参数取到所有值的可能性都相等,即满足均匀分布,先验概率是一个常数,此时MAP和MLE是等效的。

正则化

正则化可以对学习到的参数增加约束,使之落在某个特定的范围内,其中L1正则化可以使参数具有稀疏性,L2正则化可以使参数聚拢在0值附近。

从贝叶斯派的角度来看,MLE其实也是有先验概率的,只不过它的先验分布是“未知参数取到所有值的可能性都相等”,相当于没有对参数进行约束。而MAP首先假设未知参数服从某特定分布,然后用数据来修正这个先验分布,这个先验分布相当于对参数做了约束

所以贝叶斯方法与正则化都能够对参数做约束。在线性模型中,假定参数服从高斯分布,然后用MAP求解,与使用MLE增加L2正则化来求解,效果是等价的。

  • 1
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值