《统计学习方法》第一章习题

1.1 说明伯努利模型的极大似然估计以及贝叶斯估计中的统计学习方法三要素。

🌟三要素

1)模型:贝叶斯估计与最大似然估计最后寻找都是条件概率分布
2)策略:最大似然估计是经验风险最小化,贝叶斯估计是结构风险最小化
3)算法:最大似然估计是显式的解析解,贝叶斯估计是用数值计算的方法求解

伯努利模型是定义在取值为0与1的随机变量上的概率分布。假设观测到伯努利模型n次独立的数据生成结果,其中k次的结果为1,这时可以用极大似然估计或贝叶斯估计来估计结果为1的概率。

伯努利分布也叫01分布,其概率分布函数为
P ( x ) = p x ( 1 − p ) 1 − x , 其 中 0 < p < 1 , x ∈ { 0 , 1 } P(x) = p^{x}(1-p)^{1-x},其中 0<p<1, x\isin\{0,1\} P(x)=px(1p)1x,0<p<1,x{01}

🌟极大似然估计

n次独立伯努利实验的样本集 D = { x 1 , x 2 , . . . , x n } D=\{x_{1},x_{2},...,x_{n}\} D={x1,x2,...,xn},对数似然函数为
L = P ( D ∣ p ) = ln ⁡ [ ∏ i = 1 n p x i ( 1 − p ) 1 − x i ] = ∑ i = 1 n ln ⁡ [ p x i ( 1 − p ) 1 − x i ] = ∑ i = 1 n [ x i ln ⁡ p + ( 1 − x i ) ln ⁡ ( 1 − p ) ] L=P(D|p)=\ln[\prod_{i=1}^np^{x_{i}}(1-p)^{1-x_{i}}]=\sum_{i=1}^{n}\ln[p^{x_{i}}(1-p)^{1-x_{i}}]=\sum_{i=1}^{n}[x_{i}\ln p+(1-x_{i})\ln(1-p)] L=P(Dp)=ln[i=1npxi(1p)1xi]=i=1nln[pxi(1p)1xi]=i=1n[xilnp+(1xi)ln(1p)]
然后对参数p的极大似然估计就是求上式的最大值:
p ^ = arg ⁡ max ⁡   P ( D ∣ p ) p = arg ⁡ max ⁡ p ∑ i = 1 n [ x i ln ⁡ p + ( 1 − x i ) ln ⁡ ( 1 − p ) ] \widehat{p} = \underset{p}{{\arg\max} \, P(D|p)} = \underset{p}{{\arg\max} } \sum_{i=1}^{n}[x_{i}\ln p+(1-x_{i})\ln(1-p)] p =pargmaxP(Dp)=pargmaxi=1n[xilnp+(1xi)ln(1p)]
最大似然估计即求似然函数的极值点,对p求偏导并令其等于0得
∂ L ∂ p = ∑ i = 1 n ( x i p − 1 − x i 1 − p ) = 0 \frac{ \partial L }{ \partial p } = \sum_{i=1}^{n}(\frac{x_{i} }{ p }-\frac{1-x_{i}}{1-p})=0 pL=i=1n(pxi1p1xi)=0
解得
p ^ = 1 n ∑ i = 1 n x i \widehat{p}=\frac{1}{n}\sum_{i=1}^{n}x_{i} p =n1i=1nxi
由于n次独立实验中有k次结果为1,因此 p ^ = k n \widehat{p}=\frac{k}{n} p =nk
采用极大似然估计结果为1的概率为
P ( x = 1 ) = p x ( 1 − p ) 1 − x = p = k n P(x=1) = p^{x}(1-p)^{1-x}=p =\frac{k}{n} P(x=1)=px(1p)1x=p=nk

🌟贝叶斯估计

由题得样本集为 D = { x 1 , x 2 , . . . , x n } D=\{x_{1},x_{2},...,x_{n}\} D={x1,x2,...,xn}
对参数p的贝叶斯公式为
P ( p ∣ D ) = P ( D ∣ p ) P ( p ) P ( D ) P(p|D)=\frac{P(D|p)P(p)}{P(D)} P(pD)=P(D)P(Dp)P(p)
其中 P ( p ) P(p) P(p)是先验概率,P(D|p)是似然函数,P(p|D)是后验概率。贝叶斯估计是在已知观察结果D的条件下,使p出现概率最大的值,即使得P(p|D)最大。
由于P(D)与参数p无关,因此要使P(p|D)最大,即要使得分子最大。所以
p ^ = arg ⁡ max ⁡   P ( p ∣ D ) p = arg ⁡ max ⁡   p P ( p ) P ( D ∣ p ) \widehat{p} = \underset{p}{{\arg\max} \, P(p|D)}=\underset{p}{{\arg\max} \, }P(p)P(D|p) p =pargmaxP(pD)=pargmaxP(p)P(Dp)

把p视为随机变量,假设其符合β分布(贝塔分布是一个作为伯努利分布和二项式分布的共轭先验分布的密度函数,在机器学习和数理统计学中有重要应用。在概率论中,贝塔分布,也称β分布,是指一组定义在(0,1) 区间的连续概率分布。),则有
P ( p ) = β ( p ; a , b ) = p a − 1 ( 1 − p ) b − 1 C , C 为 常 数 , a , b 需 选 定 P(p) =β(p;a,b)=\frac{p^{a-1}(1-p)^{b-1}}{C}, C为常数,a ,b需选定 P(p)=β(p;a,b)=Cpa1(1p)b1,Cab

n次伯努利实验即为二项分布,由题得n次实验为1的次数为k,似然函数为
P ( D ∣ p ) = ∏ i = 1 n P ( x i ) = ∏ i = 1 n p x i ( 1 − p ) 1 − x i = p k ( 1 − p ) n − k P(D|p)=\prod_{i=1}^nP(x_{i})=\prod_{i=1}^np^{x_{i}}(1-p)^{1-x_{i}}=p^{k}(1-p)^{n-k} P(Dp)=i=1nP(xi)=i=1npxi(1p)1xi=pk(1p)nk
因此
p ^ = arg ⁡ max ⁡   p P ( D ∣ p ) P ( p ) = arg ⁡ max ⁡   p ∏ i = 1 n P ( x i ) P ( p ) = arg ⁡ max ⁡   p p k ( 1 − p ) n − k p a − 1 ( 1 − p ) b − 1 C \widehat{p} = \underset{p}{{\arg\max} \, }P(D|p)P(p)=\underset{p}{{\arg\max} \, }\prod_{i=1}^nP(x_{i})P(p)=\underset{p}{{\arg\max} \, }p^{k}(1-p)^{n-k}\frac{p^{a-1}(1-p)^{b-1}}{C} p =pargmaxP(Dp)P(p)=pargmaxi=1nP(xi)P(p)=pargmaxpk(1p)nkCpa1(1p)b1

ln ⁡ P ( D ∣ p ) P ( p ) = ln ⁡ [ p k ( 1 − p ) n − k p a − 1 ( 1 − p ) b − 1 C ] = ( k + a − 1 ) ln ⁡ p + ( n − k + b − 1 ) ln ⁡ ( 1 − p ) − ln ⁡ C \ln P(D|p)P(p)=\ln[ p^{k}(1-p)^{n-k}\frac{p^{a-1}(1-p)^{b-1}}{C}]=(k+a-1)\ln p+(n-k+b-1)\ln(1-p)-\ln C lnP(Dp)P(p)=ln[pk(1p)nkCpa1(1p)b1]=(k+a1)lnp+(nk+b1)ln(1p)lnC
为求上式极值点,令其对参数p的偏导数为0有
∂ ln ⁡ P ( D ∣ p ) P ( p ) ∂ p = k + a − 1 p − n − k + b − 1 1 − p = 0 \frac{\partial \ln P(D|p)P(p)}{\partial p} = \frac{k+a-1}{p}-\frac{n-k+b-1}{1-p}=0 plnP(Dp)P(p)=pk+a11pnk+b1=0
求得
p = k + a − 1 n + a + b − 2 p=\frac{k+a-1}{n+a+b-2} p=n+a+b2k+a1

1.2 通过经验风险最小化推导极大似然估计。证明模型是条件概率分布,当损失函数是对数损失函数时,经验风险最小化等价于极大似然估计。

🌟经验风险最小化

在假设空间F中,经验风险最小化可以用下式表示
R E R M = arg ⁡ min ⁡   f ∈ F 1 N ∑ i = 1 n L ( y i , f ( x i ) ) R_{ERM}= \underset{f \in F}{{\arg\min} \, }\frac{1}{N}\sum_{i=1}^{n} L(y_{i},f(x_{i})) RERM=fFargminN1i=1nL(yi,f(xi))
当损失函数为对数,模型是条件概率分布,即
f ( x i ) = P ( y i ∣ x i ) , L ( y i , f ( x i ) ) = − log ⁡ P ( y i ∣ x i ) f(x_{i})=P(y_{i}|x_{i}),L(y_{i},f(x_{i}))=-\log P(y_{i}|x_{i}) f(xi)=P(yixi),L(yi,f(xi))=logP(yixi)
带入经验风险得
R E R M = arg ⁡ min ⁡   f ∈ F 1 N ∑ i = 1 n − log ⁡ P ( y i ∣ x i ) = arg ⁡ max ⁡   f ∈ F 1 N ∑ i = 1 n log ⁡ P ( y i ∣ x i ) ( 1 ) R_{ERM}= \underset{f \in F}{{\arg\min} \, }\frac{1}{N}\sum_{i=1}^{n} -\log P(y_{i}|x_{i})=\underset{f \in F}{{\arg\max} \, }\frac{1}{N}\sum_{i=1}^{n} \log P(y_{i}|x_{i})(1) RERM=fFargminN1i=1nlogP(yixi)=fFargmaxN1i=1nlogP(yixi)(1)

🌟极大似然估计

由于模型是条件概率分布,则似然函数如下
P ( Y ∣ X ) = ∏ i = 1 n P ( y i ∣ x i ) P(Y|X) = \prod_{i=1}^nP(y_{i}|x_{i}) P(YX)=i=1nP(yixi)
极大似然估计即求思涵函数的最大值,即
f = arg ⁡ max ⁡   f ∈ F ∏ i = 1 n P ( y i ∣ x i ) = arg ⁡ max ⁡   f ∈ F log ⁡ ∏ i = 1 n P ( y i ∣ x i ) = arg ⁡ max ⁡   f ∈ F ∑ i = 1 n log ⁡ P ( y i ∣ x i ) ( 2 ) f = \underset{f \in F}{{\arg\max} \, }\prod_{i=1}^nP(y_{i}|x_{i})=\underset{f \in F}{{\arg\max} \, }\log\prod_{i=1}^nP(y_{i}|x_{i})=\underset{f \in F}{{\arg\max} \, }\sum_{i=1}^{n} \log P(y_{i}|x_{i})(2) f=fFargmaxi=1nP(yixi)=fFargmaxlogi=1nP(yixi)=fFargmaxi=1nlogP(yixi)(2)
对比(1)和(2)命题得证

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Hilbob

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值