李航《统计学习方法》习题答案

最新推荐文章于 2023-01-09 16:19:55 发布

Mr-Cat伍可猫

最新推荐文章于 2023-01-09 16:19:55 发布

阅读量9.4k

点赞数 5

分类专栏：统计学习方法

本文链接：https://blog.csdn.net/Mr_Cat123/article/details/86650858

版权

统计学习方法专栏收录该内容

1 篇文章 12 订阅

订阅专栏

前言：本系列习题系笔者主观完成，一家之言难免有错误之处

持续更新中…

第一章

1.2 经过经验风险最小化推导极大似然估计。证明模型是条件概率分布，当损失函数是对数损失函数时，经验风险最小化等价于极大似然估计。

先说极大似然估计(多参数可以参考极大似然估计)。设X1,X2,…Xn是来自 $X$ 的样本，则X1，X2，…Xn的联合分布律为：
$\prod_{i=1}^n p(x_i;\theta)$
其中 $x_1,...x_i$ 为X1,…Xn中的取值，即实例(instance), $\theta$ 是参数(如高斯分布中的均值和方差). 则事件{ $X_1=x_1,...X_n=x_n$ }发生的概率为：
$L(\theta)=L(x_1,x_2,...x_n;\theta)=\prod_{i=1}^np(x_i;\theta); \theta\in\Theta$
这里 $\Theta$ 是 $\theta$ 的参数空间，即 $\theta$ 所有可能的取值都在这里面。而极大似然估计的目的即是要固定样本 $X$ 不变下找到 $\Theta$ 中的 $\theta=\hat\theta$ 使得似然函数 $L(\theta)$ 最大，并用 $\hat\theta$ 作为参数 $\theta$ 的估计值。通俗地说：因为联合分布律表示事件发生的概率，我们的目的是要找到某个参数使得事件发生的可能性最大，这就是极大似然估计。因此
$\theta=\text{arg max}L(\theta)=\text{arg max}\prod_{i=1}^np(x_i;\theta)$ 上面的式子即是极大似然估计的目的。对于数据集{ $x_1,y_1),(x_2,y_2),...(x_n,y_n)$ },则目的为：
$\theta=\arg \max p(y_1,y_2,...y_n|x_1,x_2,...x_n;\theta)$ 表示给定数据集 $X$ ,找到参数 $\theta$ 使得 $Y$ 出现的概率最大。值得注意的是，这里的 $Y$ 是数据集里的label,所以也可以说是：令样本属于其真实标记的概率越大越好。（《机器学习》p59中间）。如此得到的参数即是使得训练误差最小时对应的参数。
需要注意到的是 $x_1,y_1),(x_2,y_2)...$ 是独立同分布（i.i.d），即表示数据集服从同一个未知潜在的分布 $\chi$ ，且各个feature之间是独立的。此时有：
$p(y_1,y_2...y_n|x_1,x_2,...x_n;\theta)=\frac{p(y_1,y_2,...y_n,x_1,x_2,...x_n;\theta)}{p(x_1,x_2,...x_n;\theta)}=\frac{p(y_1,x_1;\theta)p(y_2,x_2;\theta)...p(y_n,x_n;\theta)}{p(x_1;\theta)p(x_2;\theta)...p(x_n;\theta)}$ 上式子后边可以进一步简化为：
$\frac{p(y_1,x_1;\theta)}{p(x1;\theta)}\frac{p(y_2,x_2;\theta)}{p(x_2;\theta)}...\frac{p(y_n,x_n;\theta)}{p(x_n;\theta)}=p(y_1|x_1;\theta)...p(y_n|x_n;\theta)=\prod_{i=1}^np(y_i|x_i;\theta)$

现在我们开始考虑经验风险最小化问题。
模型是条件概率分布，损失函数是对数损失函数。则empirical risk为：
$R_{emp}=\frac{1}{N}\sum_{i=1}^N(-\text{log}~p(y_i|x_i))=-\frac{1}{N}\log (\prod_{i=1}^Np(y_i|x_i))$
所以
$\min R_{emp}=\max\log(\prod_{i=1}^Np(y_i|x_i))=\max\prod_{i=1}^Np(y_i|x_i)$ 即
$\theta=\arg \max \prod_{i=1}^Np(y_i|x_i;\theta)$
所以两者是等价的。
证毕！

参考文献：
1.《概率论与数理统计》P152 最大似然估计法
2.《高等数学》（物理类川大）第三册p245贝叶斯公式
3. 极大似然估计)

Mr-Cat伍可猫

关注

5
点赞
踩
19

收藏

觉得还不错? 一键收藏
4
评论
李航《统计学习方法》习题答案

前言：本系列习题系笔者主观完成，一家之言难免有错误之处持续更新中…第一章1.2 经过经验风险最小化推导极大似然估计。证明模型是条件概率分布，当损失函数是对数损失函数时，经验风险最小化等价于极大似然估计。先说极大似然估计。设X1,X2,…Xn是来自XXX的样本，则X1，X2，…Xn的联合分布律为：∏i=1np(xi;θ)\prod_{i=1}^n p(x_i;\theta)i=1∏...
复制链接

扫一扫