统计学习方法第一章习题答案

最新推荐文章于 2022-10-19 17:41:19 发布

Brielleqqqqqqjie

最新推荐文章于 2022-10-19 17:41:19 发布

阅读量1.4w

点赞数 6

分类专栏：统计学习方法文章标签：统计学习方法

本文链接：https://blog.csdn.net/qq_41562704/article/details/94402386

版权

统计学习方法专栏收录该内容

12 篇文章 45 订阅

订阅专栏

习题1涉及极大似然估计和贝叶斯估计，可以先看看书的第4章相关内容。

极大似然估计与贝叶斯估计

符号	含义
D	测试数据
$\theta$	待估计的参数
$p(\theta)$	先验概率
$p(\theta\mid D)$	后验概率
$p(D\mid\theta)$	似然函数

对极大似然函数而言，即取使得 $p(D\mid\theta)$ 最大的 $\theta$ 值。有公式 $p(\theta \mid D)=\frac{p(D \mid \theta) p(\theta)}{p(D)}$ ，而 $p(\theta)$ 和 $p (D)$ 都是确定的，只要最大化 $\mid \theta)=\prod_{i=1}^{n} p\left(x_{i} \mid\theta\right)$ 即可
而对于贝叶斯估计，先人为假设 $\theta$ 的分布（先验概率），利用期望求极大后验概率， $D)=\int_{x} x p(x | D) d x$

习题1.1

题目：说明伯努利模型的极大似然估计以及贝叶斯估计中的统计学习方法三要素。伯努利模型是定义在取值为0与1的随机变量上的概率分布。假设观测到伯努利模型n次独立的数据生成结果，其中k次的结果为1，这时可以用极大似然估计或贝叶斯估计来估计结果为1的概率。

答：
模型：伯努利模型，即定义在取值为0与1的随机变量上的概率分布。
策略：极大似然估计和贝叶斯估计的策略都是对数损失函数，贝叶斯估计使用的是结构风险最小化。
算法：极大似然估计所使用的算法是求取经验风险函数的极小值，贝叶斯估计所使用的算法是求取参数的后验分布，然后计算其期望。

设 $\theta$ ，进行了n次实验，其中有k次值为1
方法一：极大似然估计
设似然函数为 $L(\theta)=\prod_{i=1}^{n} P\left(A_{i}\right)=\theta^{k}(1-\theta)^{n-k}$
取对数为 $L(\theta)=k * ln\theta + (n-k) * ln(1-\theta)$
对L求 $\theta$ 导： $L'(\theta)= \frac{k}{\theta} - \frac{n-k}{1-\theta}$
令L’等于0， $\theta = \frac{k}{n}$
方法二：贝叶斯估计
先将 $\theta$ 看作一个变量， $f\left(\theta \right)$ 表示 $\theta$ 的先验分布，假设 $\theta$ 服从于 $\beta(a,b)$ 分布（关于为什么假定为 $\beta$ 分布等问题可以参考文末链接），即 $f\left(\theta \right) =\frac{\Gamma(a+b)}{\Gamma(a)+\Gamma(b)}\theta^{a-1}(1-\theta)^{b-1}=\frac{1}{B(a, b)} \theta^{a-1}(1-\theta)^{b-1}$
其中 $\Gamma(x)=\int_{0}^{\infty} t^{x-1} e^{-t} d t$
$P\left(\theta | A_{1}, A_{2}, \ldots, A_{n}\right)=\frac{P\left(A_{1}, A_{2}, \ldots A_{n} | \theta\right) f(\theta)}{P\left(A_{1}, A_{2}, \ldots, A_{n}\right)}$
同样假设做了n次实验，有有k次值为1，有 $P\left(A_{1}, A_{2}, \ldots A_{n} | \theta\right) = \theta^k(1-\theta)^{n-k}$
有 $P\left(\theta | A_{1}, A_{2}, \ldots, A_{n}\right)\propto{P\left(A_{1}, A_{2}, \ldots A_{n} | \theta\right) f(\theta)}\propto\theta^{a+k-1}(1-\theta)^{n-k+b-1}$
加上标准化，可以得到后验分布符合 $\beta(a+k,n-k+b)$ 分布。
即 $P\left(\theta | A_{1}, A_{2}, \ldots, A_{n}\right)=\frac{\Gamma(a+b+n)}{\Gamma(a+k)+\Gamma(b+n-k)}\theta^{a+k-1}(1-\theta)^{n-k+b-1}$
$P (A = 1)$ 的值为上式的期望，即 $\frac{a+k}{a+b+n}$
（ $\beta(a,b)$ 分布的期望为 $\frac{a}{a+b}$ ）

习题1.2

题目：通过经验风险最小化推导极大似然估计.证明模型是条件概率分布，当损失函数是对数损失函数时，经验风险最小化等价于极大似然估计.

答：在证明前先理一下概念
①损失函数为对数函数 $L\left(y_{i}, f\left(x_{i}\right)\right)=-\log P\left(y_{i} | x_{i}\right)$
② 经验风险最小化ERM是指，使得训练集的平均损失最小，即 $\begin{aligned} R_{e m p}(f) &=\min _{f \in \mathcal{F}} \frac{1}{N} \sum_{i=1}^{N} L\left(y_{i}, f\left(x_{i}\right)\right)\end{aligned}$
③极大似然估计MLE，一般似然函数定义为似然概率的乘积： $X)=\prod_{i=1}^{N} P\left(y_{i} | x_{i}\right)$
为了便于分析，进行对数处理： $\sum_{i=1}^{N} \log P\left(y_{i} | x_{i}\right)$

接下来将损失函数代入经验风险进行化简： $\begin{aligned} R_{e m p}(f) &=\frac{1}{N} \sum_{i=1}^{N} L\left(y_{i}, f\left(x_{i}\right)\right) \\ &=\frac{1}{N} \sum_{i=1}^{N}-\log P\left(y_{i} | x_{i}\right) \\ &=-\frac{1}{N} \sum_{i=1}^{N} \log P\left(y_{i} | x_{i}\right) \end{aligned}$
最小化经验风险，即最大化 $\sum_{i=1}^{N} \log P\left(y_{i} | x_{i}\right)$ ，即等价于极大似然估计。

参考：
极大似然估计详解
 贝叶斯估计详解
 习题1.1
习题1.2

Brielleqqqqqqjie

关注

6
点赞
踩
23

收藏

觉得还不错? 一键收藏
1
评论
统计学习方法第一章习题答案

1.11.2题目：通过经验风险最小化推导极大似然估计。证明模型是条件概率分布，当损失函数是对数损失函数时，经验风险最小化等价于极大似然估计。答：这个结论出自1.3节统计学习三要素介绍经验风险最小化和结构风险最小化中，分别举了两个例子，其一，模型是条件概率分布，当损失函数是对数损失函数时，经验风险最小化等价于极大似然估计。其二，模型是条件概率分布，当损失函数是对数损失函数时，模型复杂度由模型的...
复制链接

扫一扫