《统计学习方法》第1章习题答案

最新推荐文章于 2022-11-11 19:47:58 发布

Lloaded%356

最新推荐文章于 2022-11-11 19:47:58 发布

阅读量253

点赞数 4

分类专栏：统计学习方法

本文链接：https://blog.csdn.net/qq_36993032/article/details/111943072

版权

统计学习方法专栏收录该内容

10 篇文章 7 订阅

订阅专栏

1.1

说明伯努利模型的极大似然估计以及贝叶斯估计中的统计学习方法三要素。伯努利模型是定义在取值为 0 与 1 的随机变量上的概率分布。假设观测到伯努利模型n 次独立的数据生成结果，其中 k 次的结果为 1，这时可以用极大似然估计或贝叶斯估计来估计结果为 1 的概率。

1）最大似然估计
模型：伯努利分布
策略：风险函数最小化
算法：
记 $\sum_{i=1}^{n} x_i = k$
似然函数 $p)=p(x|p)=\prod_{i=1}^n p(x_i | p) = p^{k} (1 -p)^{n - k}$
取对数， $l(x, p) = \ln{L(x, p)} = {k} \ln p + (n - k) \ln {(1 - p)}$
求导， $\frac {\partial{l}}{\partial p} = \frac{n - k}{p} - \frac{k}{1 - p} = \frac{k - p}{p(1 - p)} = 0$
最大似然估计 $\hat{p} = \frac{k}{n} = \bar{x}$
2）贝叶斯估计
模型：贝塔分布
策略：风险函数最小化
算法：
假设 $p$ 服从 $B e t a (a, b)$ 分布
$p$ 的密度函数为 $\pi (p) = \frac {\tau (a + b)} {\tau (a) \tau (b)} p^{a - 1} (1 - p)^{b - 1}$
$P(x|p) = p^{k} (1 -p)^{n - k}$
联合密度函数 $\pi (p) P(x|p) = \frac {\tau (a + b)} {\tau (a) \tau (b)} p^{k + a - 1} (1 - p)^{n + b - k - 1}$
$x$ 的边际密度函数 $\int_0^1 h(x,p) {\rm d} p = \int_0^1 \frac {\tau (a + b)} {\tau (a) \tau (b)} p^{k + a - 1} (1 - p)^{n + b - k - 1} {\rm d} p = \frac {\tau (a + b)} {\tau (a) \tau (b)} \frac {\tau (k + a) \tau (n + b - k)} {\tau (a + b + n)}$
可得后验概率 $\pi (p|X) = \frac {\tau (a + b +n)}{\tau (k + a) \tau (n + b - k)} p^{k + a - 1} (1 - p)^{n + b - k - 1}$
此时后验概率服从 Beta $(k + a, n + b - k)$ 分布
令 $f(p) = p^{k + a - 1} (1 - p)^{n + b - k - 1}$ , 在 $f^{'} (p) = 0$ 时得到最优解
求导，得 $f'(p) = p^{k + a - 2} (1 - p)^{n + b - k - 2} ((k + a - 1)(1 - p) - p(n + b - k - 1))$
令 $f^{'} (p) = 0$ ，则 $((k + a - 1) (p - 1) - p (n + b - k - 1)) = k + a - 1 - p (n + a + b - 2) = 0$
贝叶斯估计是 $\hat{p} = \frac {k + a - 1}{n + a +b - 2}$

1.2

通过经验风险最小化推导极大似然估计。证明模型是条件概率分布，当损失函数是对数损失函数时，经验风险最小化等价于极大似然估计。

经验风险最小化即为 $\min \frac {1} {N} \sum_{i=1}^N L(y_i, f(x_i))$
当损失函数是对数损失函数时，上式为 $\min \frac {1} {N} (- \ln { f(x|y)} )= \min \frac {1} {N} (- \ln { \prod_{i = 1}^N f(x_i|y_i)}) = \min \frac {1} {N}(- \sum_{i=1}^N \ln { f(x_i|y_i)}) = \max \frac {1} {N} \sum_{i=1}^N \ln { f(x_i|y_i)}$
最大似然估计的算法是 $\max L(x,y) = \max \sum_{i=1}^N { f(x_i|y_i)}$
取对数后则是 $\max \sum_{i=1}^N \ln { f(x_i|y_i)}$ ，这是 $\max \, \, l(x|y)$ ,等价于 $\max \, \, L(x|y)$ ，即为极大似然估计
因此模型是条件概率分布，当损失函数是对数损失函数时，经验风险最小化等价于极大似然估计

Lloaded%356

关注

4
点赞
踩
5

收藏

觉得还不错? 一键收藏
1
评论
《统计学习方法》第1章习题答案

1.1说明伯努利模型的极大似然估计以及贝叶斯估计中的统计学习方法三要素。伯努利模型是定义在取值为 0 与 1 的随机变量上的概率分布。假设观测到伯努利模型n 次独立的数据生成结果，其中 k 次的结果为 1，这时可以用极大似然估计或贝叶斯估计来估计结果为 1 的概率。1）最大似然估计模型：伯努利分布策略：风险函数最小化算法：记∑i=1nxi=k\sum_{i=1}^{n} x_i = k∑i=1nxi=k似然函数L(x,p)=p(x∣p)=∏i=1np(xi∣p)=pk(1−p)n−kL(x
复制链接

扫一扫