李航老师《统计学习方法》第二版第四章答案

六七～

已于 2022-11-02 11:17:40 修改

阅读量3.5k

点赞数 24

分类专栏：统计学习方法第二版文章标签：统计学数据分析概率论

于 2021-04-11 18:42:19 首次发布

本文链接：https://blog.csdn.net/qq_41626059/article/details/115598863

版权

统计学习方法第二版专栏收录该内容

20 篇文章

订阅专栏

其他章节答案请参考我的汇总统计学习方法答案汇总，都是自己写的。

1、使用极大似然估计法推出朴素贝叶斯法概率估计公式（4.8）以及公式（4.9）.

解答：概率估计公式（4.8）是：
$c_{k}) = \frac{\sum_{i=1}^{N}I(y_{i} = c_{k}) }{N},k = 1,2,...,K$
概率估计公式（4.9）是：
$P(X^{j} = a_{jl}|Y = c_{k}) = \frac{\sum_{i=1}^{N}I(x_{i}^{j} = a_{jl}, y_{i} = c_{k}) }{\sum_{i=1}^{N}I(y_{i} = c_{k}) } \\j = 1,2,...,n;l = 1,2,...,S_{j}; k = 1,2,...,K$

假设我们得到的训练数据集是：
$T = \{(x_{1},y_{1}),(x_{2},y_{2}),...,(x_{N},y_{N})\}$

1.1先来推导第一个公式（4.8）

首先，我们设
$c_{k}) = \theta _{k}\tag{1}$
那么由公式（1）我们可得：
$\ne c_{k}) =1- \theta _{k}\tag{2}$
现在假设训练集 $T$ 中的类别为 $c_{k}$ 的数量是 $n_{k}$ ,那么我们可以得到极大似然估计的似然函数是
$P(y_{1},y_{2},...,y_{N}|\theta _{k}) \\= \prod_{i=1}^{N}P(y_{i}|\theta _{k}) =(\theta _{k})^{n_{k}}(1-\theta _{k})^{N-n_{k}}\tag{3}$
为了方便计算，我们对公式（3）取对数，得到对数似然函数
$P(y_{1},y_{2},...,y_{N}|\theta _{k}) =Ln (\theta _{k})^{n_{k}}(1-\theta _{k})^{N-n_{k}}=n_{k}Ln\theta _{k}+(N-n_{k})Ln (1-\theta _{k})\tag{4}$
对公式（4）关于 $\theta_{k}$ 求导数，并且令导数为0，所以有
$\frac{\partial Ln\ P(y_{1},y_{2},...,y_{N}|\theta _{k})}{\partial \theta _{k}} =\frac{n_{k}}{\theta _{k}} - \frac{N-n_{k}}{1-\theta _{k}}=0\tag{5}$
根据等式(5)解得
$\theta_{k} = \frac{n_{k}}{N} = \frac{\sum_{i=1}^{N}I(y_{i} = c_{k}) }{N},k = 1,2,...,K$
所以概率估计公式（4.8）得证。其实，还要验证一下驻点是极大值点，但是显然是存在极大值的，我就省略了，老铁们！！！

1.2、推导朴素贝叶斯公式（4.9）

我们先将条件概率转化为联合概率
$P(X^{j} = a_{jl}|Y=c_{k}) = \frac{P(X^{j} = a_{jl},Y = c_{k})}{P(Y=c_{k})} \tag{6}$
因为我们在1.1小节，已经推导出了 $P(Y=c_{k})$ ,那么我们现在只需要对 $P(X^{j} = a_{jl},Y = c_{k})$ 进行估计即可。
同样的，我们假设
$P(X^{j} = a_{jl},Y=c_{k}) = \theta\tag{7}$
那么使得 $X^{j} = a_{jl},Y=c_{k})$ 中任何一个等号不成立的概率就是 $1-\theta$
所以，我们根据训练数据集 $T$ 可以得到似然函数是
$P((x_{1}^{j},y_{1}),(x_{2}^{j},y_{2}),...(x_{1}^{j},y_{N})) \\= \prod_{i=1}^{N}P(x_{i}^{j},y_{i})=\theta^{n}(1-\theta)^{N-n}\tag{8}$
其中， $n$ 是使 $X^{j} = a_{jl},Y=c_{k}$ 成立的数据的个数，也就是 $\sum_{i=1}^{N}I(x_{i}^{j} = a_{jl}, y_{i} = c_{k})$
同样的为了方便计算，我们对公式（8）取自然对数得到对数似然函数，然后再关于 $\theta$ 求导数得到驻点，验证下为唯一的极大值，就可以得到
$\theta = \frac{\sum_{i=1}^{N}I(x_{i}^{j} = a_{jl}, y_{i} = c_{k})}{N}$
然后联合公式(4.8),就可以得到（4.9）.

2、用贝叶斯估计法推出朴素贝叶斯法中的概率估计公式（4.10）以及公式（4.11）.

解答：
训练集仍然是
$T = \{(x_{1},y_{1}),(x_{2},y_{2}),...,(x_{N},y_{N})\}$

2.1、优先进行（4.11）的推导

首先给出（4.11）的表达式
$P_{\lambda}(Y=c_{k}) = \frac{\sum_{i=1}^{N}I(y_{i}=c_{k}) +\lambda}{N+K\lambda } \tag{4.11}$
首先我们假设
$P_{\lambda}(Y=c_{k}) = \theta\tag{1}$
接下来我们使用贝叶斯估计法估计参数 $\theta$ 的取值。
我们知道概率的取值是[0,1],因而我们假设 $\theta$ 的先验分布的概率密度函数是均匀分布 $p(\theta) = 1$
我们要使用数据集 $T$ 来估计随机变量 $\theta$ 的概率分布。
贝叶斯估计的思想就是先提前给出 $\theta$ 的一个先验分布 $p(\theta)$ ，接着根据训练数据集 $T$ 来进行修正这个先验分布 $p(\theta)$ .
由贝叶斯估计算法，我们可以得到以下的修正方法
$P(\theta|T) = \frac{P(\theta ,T)}{P(T)} =\frac{P(\theta )P(T|\theta )}{P(T)} \tag{2}$
但是由于 $P (T)$ 的取值是固定的，虽然我们不知道，我们不去计算这一项，而且我们还要使用极大化后验概率来给出一个 $\theta$ 的具体的值。
所以有
$P(\theta |T) \propto P(\theta )P(T|\theta )= P(T|\theta )\tag{3}$
其实也就是将贝叶斯估计进行极大似然的估计
$\ne c_{k}) = 1- \theta\tag{4}$
所以
$P(y_{1},y_{2},...,y_{N}|\theta) = \theta^{n_{k}+\lambda}(1-\theta)^{N-n_{k}+K\lambda}\tag{5}$
其中 $n_{k}$ 是训练数据集中类标记 $c_{k}$ 的数量。
如果使用极大化后验概率的的话，我们就得到
${\theta}' = \underset{\theta }{argmax} P(y_{1},y_{2},...,y_{N}|\theta) \\= \underset{\theta }{argmax}\ \theta^{n_{k}+\lambda}(1-\theta)^{N-n_{k}+K\lambda}\tag{6}$
在公式（6）的最会一部分取对数，然后极大化，可以得到
$\theta = \frac{n_{k}+\lambda }{N+K\lambda } = \frac{\sum_{i=1}^{N}I(y_{i}=c_{k}) +\lambda }{N+K\lambda } \tag{7}$
得证！！！

2.2、证明（4.10）

这里直接从条件概率入手，设训练集 $T$ 中类标记 $c_{k}$ 的数量为 $n_{c_{k}}$ ,我们将数据集 $T$ 中类标记是 $c_{k}$ 的数据挑选出来构造新的数据集 $T_{c_{k}} = \{(x_{1c_{k}},c_{k}),(x_{2c_{k}},c_{k}),...,(x_{n_{c_{k}}c_{k}},c_{k})\}$
根据条件概率的性质我们有下式成立
$P_{\lambda}(X^{j} = a_{jl}|Y = c_{k},T)=P_{\lambda}(X^{j} = a_{jl}|T_{c_{k}})\tag{1}$
假设
$P_{\lambda}(X^{j} = a_{jl}|T_{c_{k}}) = \theta\tag{2}$
我们还是假设 $\theta$ 的先验分布是均匀分布，概率密度函数是 $p(\theta) = 1$
所以有：
$P(\theta|T_{c_{k}}) = \frac{P(T_{c_{k}}|\theta )P(\theta )}{P(T_{c_{k}})} \propto P(T_{c_{k}}|\theta )P(\theta )\tag{3}$
还是和公式（4.11）的证明一样，我们还是使用后验概率极大化得到一个具体的 $\theta$ 来表示。
所以
${\theta}' = \underset{\theta }{argmax}\ \theta ^{n+\lambda }(1-\theta )^{n_{c_{k}}+S_{j}\lambda -n-\lambda }\tag{4}$
其中 $n$ 表示使 $x_{i}^{j} = a_{jl}$ 成立的数量，也即是 $\sum_{i=1}^{N}I(x_{i}^{j} = a_{jl},y_{i}=c_{k})\tag{5}$
$n_{c_{k}} = \sum_{i=1}^{N}I(y_{i}= c_{k}) \tag{6}$
将公式（4）转化为对数求解，可以得到
${\theta}'=\frac{n+\lambda }{n_{c_{k}}+S_{j}\lambda }\tag{7}$
将公式（5）和公式（6）带入到公式（7）所以得到
$P_{\lambda}(X^{j} = a_{jl}|Y = c_{k},T) = \frac{\sum_{i=1}^{N}I(x_{i}^{j} = a_{jl},y_{i}=c_{k})+\lambda }{\sum_{i=1}^{N}I(y_{i}= c_{k})+S_{j}\lambda }$
得证！！！