李航老师《统计学习方法》第二版第一章答案详解

六七～

已于 2022-11-01 16:44:14 修改

阅读量4.1k

点赞数 22

分类专栏：统计学习方法第二版文章标签：机器学习算法人工智能

于 2021-04-05 18:52:58 首次发布

本文链接：https://blog.csdn.net/qq_41626059/article/details/115440253

版权

统计学习方法第二版专栏收录该内容

20 篇文章 66 订阅

订阅专栏

其他章节答案请参考我的汇总统计学习方法答案汇总，都是自己写的。

1、说明伯努利模型的极大似然估计和以及贝叶斯估计中的统计学习方法三要素。伯努利模型是定义在取值为0与1的随机变量上的概率分布。假设观测到伯努利模型n次独立的数据生成结果，其中k次的结果为1，这时可以用极大似然估计或贝叶斯估计来估计结果为1的概率。

解：
模型三要素是：

	模型	策略	算法
极大似然估计	概率模型	经验风险最小化	数值解
贝叶斯估计	概率模型	结构风险最小化	解析解

设 $x_{1}, x_{2},..., x_{n}$ 为n次独立实验产生的结果。

1.2、极大似然估计来估计结果为1的概率

设 $\theta$ ，因为伯努利分布是二项分布，所以 $0)=1-\theta$
那我可以得到似然函数是：
$L(x_{1}, x_{2},..., x_{n};\theta) = \theta ^{k}(1-\theta )^{n-k}\tag{1}$
公式（1）的解释：其实这个公式的成立应该是使用概率的链式法则来做，但是题干给出了数据是独立的，因而可以直接简化问题，使用一个幂次就可以解决问题。但是对于幂函数来说，求解很是不方便，不容易计算。于是我们得到下面的对数似然函数，将幂次消掉。
由公式（1），因为当底数大于1，对数函数也是增函数，那么我们可以写出下面的对数似然函数：
$L(x_{1}, x_{2},..., x_{n};\theta) = Ln \theta ^{k}(1-\theta )^{n-k} = kLn(\theta )(n-k)Ln(1-\theta )\tag{2}$
因为我们要极大化这个函数，下面对 $\theta$ 求导数：
$L(x_{1}, x_{2},..., x_{n};\theta)}' = \frac{k}{\theta } - \frac{n-k}{1-\theta } \tag{3}$
因为是可导函数，那么在极大值出一定有：
$L(x_{1}, x_{2},..., x_{n};\theta)}' = 0\tag4$
所以有 $\frac{k}{\theta } - \frac{n-k}{1-\theta }= 0\tag5$
将公式（5）整理便有
$n\theta = k\tag6$
故我们有 $\theta = \frac{k}{n}$

1.2、贝叶斯估计来估计结果为1的概率

(1)我们还是假设 $\theta$ , 并且此时认为 $\theta$ 是服从均匀分布的随机变量，因为 $\theta \in [0,1]$ ,所以可以计算出 $\theta$ 的概率密度函数为 $f(\theta) = 1$
根据贝叶斯定理，我们可以得到后验概率：
$P(\theta |D) = \frac{P(\theta )P(D|\theta )}{P(D)} \tag7$
公式（7）解释：其中 $P(\theta)$ 为先验概率， $P(D|\theta)$ 为似然函数，其中D表示我们试验得到的数据，对于该题的例子就有 $D=\{x_{1}, x_{2},..., x_{n}\}$
在模型估计时，我们需要对整个后验概率分布 $P(\theta|D)$ 进行估计，但是如果需要给出一个模型是，我们就是采用后验概率最大的模型
还有一点特别关键，如果先验分布是连续的，那么公式（7）变为
$P(\theta |D) = \frac{f(\theta )P(D|\theta )}{P(D)} \tag8$
其中 $f(\theta)$ 为 $\theta$ 的概率密度函数，如果是离散的，我们还是使用公式（7）来做。
因为均匀分布是连续的，所以有
$\theta = \underset{\theta }{argmax }\quad P(\theta |x_{1}, x_{2},..., x_{n}) \\=\underset{\theta }{argmax }\quad \frac{P(\theta )P(x_{1}, x_{2},..., x_{n}|\theta )}{P(x_{1}, x_{2},..., x_{n})} \\\propto \underset{\theta }{argmax }\quad P(\theta )P(x_{1}, x_{2},..., x_{n}|\theta ) \\ = \underset{\theta }{argmax } \quad P(x_{1}, x_{2},..., x_{n}|\theta ) \\= \underset {\theta }{argmax }\quad \theta ^{k}(1-\theta )^{n-k}\tag9$
公式（9）的解释：第一个等号的成立是因为使用的方法是最大后验概率；第二个等号是使用了贝叶斯公式；第三个成立是因为分母的 $P(x_{1}, x_{2},..., x_{n})$ 和参数 $\theta$ 是无关的，因而可以省略；第四个等号是因为均匀分布的概率密度函数恒为1，所以省略了，第五个等号就是似然函数啦，还可以转化为对数进行求解，和上面的计算是一样的。
下面这个例子是错误的，看看大家是不是可以发现错误之处。
下面我们换一个先验分布以加强对这个例子的理解
假设 $\theta$ 符合的先验分布是均值为0.5，方差为0.1的高斯分布：
$\theta \sim N(0.5, 0.1) \tag{10}$
设 $\theta$ 的概率密度函数是：
$f(\theta)= \frac{1}{10\sqrt{2\pi } } e^{-50(\theta -0.5)^2}\tag{11}$
根据公式(9)的第三行，我们可以得到
$P(\theta )P(x_{1}, x_{2},..., x_{n}|\theta ) \\=f(\theta)P(x_{1}, x_{2},..., x_{n}|\theta )\\= \theta ^{k}(1-\theta )^{n-k}*\frac{1}{10\sqrt{2\pi } } e^{-50(\theta -0.5)^2}\tag{12}$
将公式（12）转化为对数形式方便计算，于是得到：
$Ln\ \theta ^{k}(1-\theta )^{n-k}*\frac{1}{10\sqrt{2\pi } } e^{-50(\theta -0.5)^2}\\= kLn\ \theta +(n-k)Ln\ (1-\theta )-50(\theta -0.5)^2 \tag{13}$
对公式(13)求导数，然后求出驻点即可，还可以再验证一下是否是唯一的，不是唯一的话，然后再取出最大的即可。

老铁们，上面这个先验分布是正态分布的例子是错的，我大意了。，因为正态分布的随机变量的取值是整个实轴，而这个题里面的 $\theta$ 的取值是【0，1】,因而正态分布不合适。
下面我们使用随机变量取值在【0，1】内的贝塔分布来举例。
贝塔分布的概率密度函数是
$f(\theta ;\alpha ,\beta )=\frac{\Gamma (\alpha +\beta )}{\Gamma (\alpha )\Gamma (\beta )}\theta ^{(\alpha -1)}(1-\theta )^{\beta -1}\tag{14}$

同样的，根据公式（9）的第三行我们得到
$P(\theta )P(x_{1}, x_{2},..., x_{n}|\theta ) \\=f(\theta;\alpha ,\beta )P(x_{1}, x_{2},..., x_{n}|\theta )\\= \theta ^{k}(1-\theta )^{n-k}*\frac{\Gamma (\alpha +\beta )}{\Gamma (\alpha )\Gamma (\beta )}\theta ^{(\alpha -1)}(1-\theta )^{\beta -1}\tag{15}$

我们可以确定一个 $\alpha,\beta$ 的具体取值，然后带入，对公式（15）求导求驻点，然后还要判断一下是不是唯一的驻点，如果不是，求出极大值对应的驻点，然后找到最大值对应的 $\theta$ 即可。

上面那个错误的例子之所以没有删除，是因为警示一下大家。

2、通过经验风险最小化推导极大似然估计。证明模型是条件概率分布，当损失函数是对数损失时，经验风险最小化等价于极大似然估计。

答：当模型是条件概率分布且损失函数是对数损失时，最小化结构风险是：
$\ R_{emp}(P(Y|X)) = \frac{1}{N}\sum_{i=1}^{N}-Ln\ P(Y_{i}|X_{i},\theta )\tag{1}$
我们公式（1）里面的极小化转化为极大化，于是有
$\ R_{emp}(P(Y|X)) = \frac{1}{N}\sum_{i=1}^{N}Ln\ P(Y_{i}|X_{i},\theta )\\=\frac{1}{N}Ln\ \prod_{i=1}^{N}P(Y_{i}|X_{i},\theta ) \tag{2}$
因为以 $e$ 为底数的对数函数是增函数，那么就相当于极大化下面的似然函数：
$\prod_{i=1}^{N}P(Y_{i}|X_{i},\theta ) \tag{3}$

将似然函数取对数变为对数似然方程，再利用当底数 $e > 1$ 时，对数函数是增函数，就可以完成由极大似然估计推导最小化经验风险。

六七～

关注

22
点赞
踩
49

收藏

觉得还不错? 一键收藏
5
评论
李航老师《统计学习方法》第二版第一章答案详解

1、说明伯努利模型的极大似然估计和以及贝叶斯估计中的统计学习方法三要素。伯努利模型是定义在取值为0与1的随机变量上的概率分布。假设观测到伯努利模型n次独立的数据生成结果，其中k次的结果为1，这时可以用极大似然估计或贝叶斯估计来估计结果为1的概率。解：模型三要素是：模型策略算法极大似然估计概率模型经验风险最小化数值解贝叶斯估计概率模型结构风险最小化解析解设x1,x2,...,xnx_{1}, x_{2},..., x_{n}x1,x2,...,xn为
复制链接

扫一扫