极大似然与极小化经验误差的等价关系证明

极大似然估计&最大后验概率估计

https://guangchun.wordpress.com/2011/10/13/ml-bayes-map/
http://www.mi.fu-berlin.de/wiki/pub/ABI/Genomics12/MLvsMAP.pdf

经验风险最小化:

minfF1NNi=1L(yi,f(xi)) min f ∈ F 1 N ∑ i = 1 N L ( y i , f ( x i ) )

结构风险最小化:

minfF1NNi=1L(yi,f(xi))+λJ(f) min f ∈ F 1 N ∑ i = 1 N L ( y i , f ( x i ) ) + λ J ( f )

李航博士《统计学习方法》中第一章第九页中有两个论断

  1. 当模型是条件概率分布,损失函数是对数损失函数时,经验风险最小化就等价于极大似然估计。
  2. 当模型是条件概率分布、损失函数是对数损失函数、模型复杂度由模型的先验概率表示时,结构风险最小化就等价于最大后验概率估计

证明论断1:

 极大似然估计:对于观测的随机变量D,其总体分布为

P(D;θ) P ( D ; θ )

 S为抽样得到的样本,
S=(s1,s2,...,sN) S = ( s 1 , s 2 , . . . , s N )

 样本是独立同分布得到的,因此样本的分布为
L(θ)=i=1NP(si;θ) L ( θ ) = ∏ i = 1 N P ( s i ; θ )

 当 S=(s1,s2,...,sN) S = ( s 1 , s 2 , . . . , s N ) 确定,则上式可以看做是 θ θ 的函数。
 这个函数反映了在观察结果已知的情况下, θ θ 的“似然程度”,因此上式被叫做似然函数。用似然程度最大的那个 θ θ ∗ 去做 θ θ 的估计,这种估计方法叫做”极大似然估计”。
取对数,极大平均似然函数为:
maxlogL(θ)=max1Ni=1NlogP(si;θ) max l o g L ( θ ) = max 1 N ∑ i = 1 N l o g P ( s i ; θ )

 上式等价于
minlogL(θ)=min1Ni=1NlogP(si;θ) min − log ⁡ L ( θ ) = min 1 N ∑ i = 1 N − l o g P ( s i ; θ )

 在统计学习中,S就是样本, si=(xi,yi).xi,yi s i = ( x i , y i ) . x i 为特征, y i 为 标 签
当模型是条件概率分布时,则
P(si;θ)=P(yi|xi;θ) P ( s i ; θ ) = P ( y i | x i ; θ )

minlogL(θ)=min1Ni=1NlogP(yi|xi;θ)(1) (1) min − log ⁡ L ( θ ) = min 1 N ∑ i = 1 N − log ⁡ P ( y i | x i ; θ )

 当损失函数是对数损失函数
L(Y,P(Y|X))=logP(Y|X) L ( Y , P ( Y | X ) ) = − log ⁡ P ( Y | X )

 则最小化经验风险的公式为
minfF1Ni=1NL(yi,f(xi))=minfF1Ni=1NL(yi,p(yi|xi;θ))=minfF1Ni=1Nlogp(yi|xi;θ)(2) min f ∈ F 1 N ∑ i = 1 N L ( y i , f ( x i ) ) = min f ∈ F 1 N ∑ i = 1 N L ( y i , p ( y i | x i ; θ ) ) (2) = min f ∈ F 1 N ∑ i = 1 N − l o g p ( y i | x i ; θ )

 对比(1)(2)两个公式,论断1得证。

证明论断2

 极大似然估计将 θ θ 看做是一个确定但未知的常量,而贝叶斯学派则认为
θ θ 可以看做一个随机变量,从这个视角出发可得到条件概率 P(θ|S) P ( θ | S )
 因此利用贝叶斯公式得到

P(θ|S)=P(S|θ)P(θ)P(S) P ( θ | S ) = P ( S | θ ) P ( θ ) P ( S )

 最大后验概率估计是要最大化
P(θ|S) P ( θ | S )

 因此
maxP(θ|S)=maxP(S|θ)P(θ) max P ( θ | S ) = max P ( S | θ ) P ( θ )

 上式与极大似然估计相比,只多了个 P(θ) P ( θ ) .左边和极大似然估计一样,因此对左边取对数处理求平均似然最大
max1Ni=1NlogP(si|θ)+logP(θ) max 1 N ∑ i = 1 N l o g P ( s i | θ ) + l o g P ( θ )

 当模型是条件概率分布时,则
P(si;θ)=P(yi|xi;θ) P ( s i ; θ ) = P ( y i | x i ; θ )

 因此,
max1Ni=1NlogP(yi|xi;θ)+logP(θ) max 1 N ∑ i = 1 N l o g P ( y i | x i ; θ ) + l o g P ( θ )

取负号,转换为
min1Ni=1NlogP(yi|xi;θ)logP(θ)(3) (3) min 1 N ∑ i = 1 N − l o g P ( y i | x i ; θ ) − l o g P ( θ )

 当损失函数是对数损失函数
L(Y,P(Y|X))=logP(Y|X) L ( Y , P ( Y | X ) ) = − l o g P ( Y | X )

 模型是条件概率分布时,结构风险最小化公式
minfF1Ni=1NL(yi,f(xi))+λJ(f)=minfF1Ni=1NlogP(yi|xi;θ)+λJ(f)(4) (4) min f ∈ F 1 N ∑ i = 1 N L ( y i , f ( x i ) ) + λ J ( f ) = min f ∈ F 1 N ∑ i = 1 N − l o g P ( y i | x i ; θ ) + λ J ( f )

 比较公式(3)(4),则当 λJ(f)=logP(θ) λ J ( f ) = − l o g P ( θ )
两者等价,论断2得证。

λ λ 在(4)中没有出现,其实 λ λ 为超参,在模型中一般首先指定,如果为1/2 , 则 122logP(θ) − 1 2 ∗ 2 l o g P ( θ ) , 所以无论怎么取,都可以得到对应的使得等价。

  • 1
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值