李航《统计学习方法》习题答案

前言:本系列习题系笔者主观完成,一家之言难免有错误之处
持续更新中…
第一章
  • 1.2 经过经验风险最小化推导极大似然估计。证明模型是条件概率分布,当损失函数是对数损失函数时,经验风险最小化等价于极大似然估计。

先说极大似然估计(多参数可以参考极大似然估计)。设X1,X2,…Xn是来自 X X X的样本,则X1,X2,…Xn的联合分布律为:
∏ i = 1 n p ( x i ; θ ) \prod_{i=1}^n p(x_i;\theta) i=1np(xi;θ)
其中 x 1 , . . . x i x_1,...x_i x1,...xi为X1,…Xn中的取值,即实例(instance), θ \theta θ是参数(如高斯分布中的均值和方差). 则事件{ X 1 = x 1 , . . . X n = x n X_1=x_1,...X_n=x_n X1=x1,...Xn=xn}发生的概率为:
L ( θ ) = L ( x 1 , x 2 , . . . x n ; θ ) = ∏ i = 1 n p ( x i ; θ ) ; θ ∈ Θ L(\theta)=L(x_1,x_2,...x_n;\theta)=\prod_{i=1}^np(x_i;\theta); \theta\in\Theta L(θ)=L(x1,x2,...xn;θ)=i=1np(xi;θ);θΘ
这里 Θ \Theta Θ θ \theta θ的参数空间,即 θ \theta θ所有可能的取值都在这里面。而极大似然估计的目的即是要固定样本 X X X不变下找到 Θ \Theta Θ中的 θ = θ ^ \theta=\hat\theta θ=θ^使得似然函数 L ( θ ) L(\theta) L(θ)最大,并用 θ ^ \hat\theta θ^作为参数 θ \theta θ的估计值。通俗地说:因为联合分布律表示事件发生的概率,我们的目的是要找到某个参数使得事件发生的可能性最大,这就是极大似然估计。因此
θ = arg max L ( θ ) = arg max ∏ i = 1 n p ( x i ; θ ) \theta=\text{arg max}L(\theta)=\text{arg max}\prod_{i=1}^np(x_i;\theta) θ=arg maxL(θ)=arg maxi=1np(xi;θ)上面的式子即是极大似然估计的目的。对于数据集{ ( x 1 , y 1 ) , ( x 2 , y 2 ) , . . . ( x n , y n ) (x_1,y_1),(x_2,y_2),...(x_n,y_n) (x1,y1),(x2,y2),...(xn,yn)},则目的为:
θ = arg ⁡ max ⁡ p ( y 1 , y 2 , . . . y n ∣ x 1 , x 2 , . . . x n ; θ ) \theta=\arg \max p(y_1,y_2,...y_n|x_1,x_2,...x_n;\theta) θ=argmaxp(y1,y2,...ynx1,x2,...xn;θ)表示给定数据集 X X X,找到参数 θ \theta θ使得 Y Y Y出现的概率最大。值得注意的是,这里的 Y Y Y是数据集里的label,所以也可以说是:令样本属于其真实标记的概率越大越好。(《机器学习》p59中间)。如此得到的参数即是使得训练误差最小时对应的参数。
需要注意到的是 ( x 1 , y 1 ) , ( x 2 , y 2 ) . . . (x_1,y_1),(x_2,y_2)... (x1,y1),(x2,y2)...独立同分布(i.i.d),即表示数据集服从同一个未知潜在的分布 χ \chi χ,且各个feature之间是独立的。此时有:
p ( y 1 , y 2 . . . y n ∣ x 1 , x 2 , . . . x n ; θ ) = p ( y 1 , y 2 , . . . y n , x 1 , x 2 , . . . x n ; θ ) p ( x 1 , x 2 , . . . x n ; θ ) = p ( y 1 , x 1 ; θ ) p ( y 2 , x 2 ; θ ) . . . p ( y n , x n ; θ ) p ( x 1 ; θ ) p ( x 2 ; θ ) . . . p ( x n ; θ ) p(y_1,y_2...y_n|x_1,x_2,...x_n;\theta)=\frac{p(y_1,y_2,...y_n,x_1,x_2,...x_n;\theta)}{p(x_1,x_2,...x_n;\theta)}=\frac{p(y_1,x_1;\theta)p(y_2,x_2;\theta)...p(y_n,x_n;\theta)}{p(x_1;\theta)p(x_2;\theta)...p(x_n;\theta)} p(y1,y2...ynx1,x2,...xn;θ)=p(x1,x2,...xn;θ)p(y1,y2,...yn,x1,x2,...xn;θ)=p(x1;θ)p(x2;θ)...p(xn;θ)p(y1,x1;θ)p(y2,x2;θ)...p(yn,xn;θ)上式子后边可以进一步简化为:
p ( y 1 , x 1 ; θ ) p ( x 1 ; θ ) p ( y 2 , x 2 ; θ ) p ( x 2 ; θ ) . . . p ( y n , x n ; θ ) p ( x n ; θ ) = p ( y 1 ∣ x 1 ; θ ) . . . p ( y n ∣ x n ; θ ) = ∏ i = 1 n p ( y i ∣ x i ; θ ) \frac{p(y_1,x_1;\theta)}{p(x1;\theta)}\frac{p(y_2,x_2;\theta)}{p(x_2;\theta)}...\frac{p(y_n,x_n;\theta)}{p(x_n;\theta)}=p(y_1|x_1;\theta)...p(y_n|x_n;\theta)=\prod_{i=1}^np(y_i|x_i;\theta) p(x1;θ)p(y1,x1;θ)p(x2;θ)p(y2,x2;θ)...p(xn;θ)p(yn,xn;θ)=p(y1x1;θ)...p(ynxn;θ)=i=1np(yixi;θ)

现在我们开始考虑经验风险最小化问题。
模型是条件概率分布,损失函数是对数损失函数。则empirical risk为:
R e m p = 1 N ∑ i = 1 N ( − log  p ( y i ∣ x i ) ) = − 1 N log ⁡ ( ∏ i = 1 N p ( y i ∣ x i ) ) R_{emp}=\frac{1}{N}\sum_{i=1}^N(-\text{log}~p(y_i|x_i))=-\frac{1}{N}\log (\prod_{i=1}^Np(y_i|x_i)) Remp=N1i=1N(log p(yixi))=N1log(i=1Np(yixi))
所以
min ⁡ R e m p = max ⁡ log ⁡ ( ∏ i = 1 N p ( y i ∣ x i ) ) = max ⁡ ∏ i = 1 N p ( y i ∣ x i ) \min R_{emp}=\max\log(\prod_{i=1}^Np(y_i|x_i))=\max\prod_{i=1}^Np(y_i|x_i) minRemp=maxlog(i=1Np(yixi))=maxi=1Np(yixi)
θ = arg ⁡ max ⁡ ∏ i = 1 N p ( y i ∣ x i ; θ ) \theta=\arg \max \prod_{i=1}^Np(y_i|x_i;\theta) θ=argmaxi=1Np(yixi;θ)
所以两者是等价的。
证毕!

参考文献:
1.《概率论与数理统计》P152 最大似然估计法
2.《高等数学》(物理类川大)第三册p245贝叶斯公式
3. 极大似然估计)

  • 5
    点赞
  • 19
    收藏
    觉得还不错? 一键收藏
  • 4
    评论
李航的《统计学习方法》是一本经典的统计学习教材,其中涵盖了统计学习的基本理论和方法。该书主要介绍了统计学习的三要素:模型、策略和算法。引用提到,训练集用来训练模型,验证集用来选择模型,测试集用于对学习方法的评估。这些三要素是统计学习方法的基础。引用进一步解释了统计学习的目标,即通过构建概率统计模型对数据进行准确的预测与分析,并提高学习效率。引用提到了一种常用的统计学习方法,即提升(boosting),它通过改变训练样本的权重,学习多个弱分类器,并将它们线性组合成一个强分类器,以提高分类的性能。 总结起来,李航的《统计学习方法》笔记主要围绕统计学习的基本理论和方法展开,介绍了统计学习的三要素、目标和提升等常用方法。这本书对于学习统计学习的人来说是一本非常有价值的参考资料。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* [统计学习方法——李航 笔记](https://blog.csdn.net/qq_45383347/article/details/110482540)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 50%"] - *2* *3* [李航统计学习方法学习笔记](https://blog.csdn.net/liuzuoping/article/details/98840923)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 50%"] [ .reference_list ]
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值