李航《统计学习方法》第4章习题答案参考

最新推荐文章于 2022-11-14 19:43:09 发布

24thAUG

最新推荐文章于 2022-11-14 19:43:09 发布

阅读量5.9k

点赞数

分类专栏：机器学习数学文章标签： ML

本文链接：https://blog.csdn.net/iwanthn/article/details/76090922

版权

机器学习同时被 2 个专栏收录

7 篇文章 0 订阅

订阅专栏

数学

1 篇文章 0 订阅

订阅专栏

第 4 章朴素贝叶斯法

浅谈极大似然估计与贝叶斯估计

极大似然估计：频率学派，认为参数是确定存在只是未知的，并且觉得出现的状态假设是按概率最大的情况出现的，所以对极大似然函数求极值就可以得到参数 $\theta$ .(下述 $D$ 为训练数据集)

θ M L E = a r g m a x θ P (D | θ)

$\theta_{MLE} = argmax_{\theta} P(D|\theta)$

贝叶斯估计 ：贝叶斯学派，认为参数是不确定的，也是一个随机变量，所以给定输入不能得到输出，只能根据先验概率得出输出的期望：

E [y | x, D] = \int P (y | x, θ) P (θ | D) d θ

$E[y|x,D] = \int P(y|x,\theta) P(\theta|D) d\theta$
所以呢，想要求后验概率

P(θ|D) $P(\theta|D)$ , 想起贝叶斯公式：

P (θ | D) = P ( D | θ ) \cdot P ( θ ) P ( D ) = P ( D | θ ) \cdot P ( θ ) \int P ( D | θ ) \cdot P ( θ ) d θ

$P(\theta|D) = \frac{P(D|\theta)\cdot P(\theta)}{P(D)} = \frac{P(D|\theta)\cdot P(\theta)}{\int P(D|\theta)\cdot P(\theta) d\theta}$
但是积分看到就烦，而且不好计算，还可能不存在解析解，所以呢，就将就一下，转而求极大后验概率：

θ M A P = a r g m a x θ P (D | θ) P (θ)

$\theta_{MAP} = argmax_{\theta} P(D|\theta)P(\theta)$

乍一看，两类估计非常相似，为什么要提贝叶斯估计呢，是因为有时概率是做分母的，比如NLP中，测试集中包含训练集里没有的词，然后概率就为0了，NB里面，是假设i.i.d的，有一个为0就没得算了,在进行模型评估的时候计算一个pvalue，你也麻烦了。所以呢，一般需要对数据进行平滑化处理，常用的是Laplace换句话说就是add-one smoothing 就是管你什么情况对于所有的词我都默认出现过一次了.

说起这个，由于出现频次太低，语料库有比较大的时候，可能出现下溢出。就是太太太小了，都约为0 那还比个什么啊，所以这个应对措施是取对数.

4.1 用极大似然估计法推出朴素贝叶斯法中的概率估计公式（4.8）及（4.9）.

P.S $P(Y=c_k)=\frac{\sum_{i=1} ^N I(y_i = c_k)} { N} (4.8)$ ;
$P(X^{(j)} = a_{jl} | Y=c_k )=\frac{\sum^N_{i=1} I(x_i ^{(j)}=a_{jl},y_i=c_k)}{\sum_{i=1}^N I(y_i = c_k)}\quad j=1,2,\cdots,n;\;l=1,2,\cdots,S_j;\;k=1,2,\cdots,K (4.9)$

证明：（4.8）
记 $p=P(y=c_k),q=P(x_1^{(j)}=a_{jl}|y_i = c_k)$ , $m=\sum_{i=1}^N I(y_i=c_k)$ , $n=\sum _{i=1}^N I(x_i^{(j)}=a_{jl},y_i=C_k)$ ，
$M$ 为我们假设的概率模型;
根据极大似然估计，我们认为 $y$ 独立同分布，似然函数为：

P = P (y 1, y 2, \dots, y N | M) = P (y 1 | M) P (y 2 | M) \dots P (y N | M) = p m \cdot (1 - p) N - m

$\begin{align} P = P(y_1,y_2,\cdots,y_N|M) &= P(y_1|M)P(y_2|M)\cdots P(y_N|M) \\ &= p^m\cdot\ (1-p)^{N-m} \end{align}$
对

P $P$ 取对数,并求导，令导数为0求

p $p$ 的极大似然:

\partial l o g P \partial p = m p - N - m 1 - p = 0

$\frac{\partial logP}{\partial p} = \frac{m}{p}-\frac{N-m}{1-p} =0$
求得

p=mN $p=\frac{m}{N}$ ,即

P(Y=ck)=∑Ni=1I(yi=ck)N $P(Y=c_k)=\frac{\sum_{i=1} ^N I(y_i = c_k)} { N}$ .

（4.9）

P = P (x (j) 1, x (j) 2, \dots, x (j) m | y i = c k, M) = P (x (j) 1 | y i = c k, M) P (x (j) 2 | y i = c k, M) \dots P (x (j) m | y i = c k, M) = q n \cdot (1 - q) m - n

$\begin{align} P &= P(x_1^{(j)},x_2^{(j)},\cdots,x_m^{(j)}|y_i=c_k, M) \\ &= P(x_1^{(j)}|y_i=c_k,M)P(x_2^{(j)}|y_i=c_k,M)\cdots P(x_m^{(j)}|y_i=c_k,M) \\ &= q^n\cdot\ (1-q)^{m-n} \end{align}$
同上可得

q=nm $q=\frac{n}{m}$ ,即

P(X(j)=ajl|Y=ck)=∑Ni=1I(x(j)i=ajl,yi=Ck)∑Ni=1I(yi=ck) $P(X^{(j)}=a_{jl}|Y=c_k)=\frac{\sum _{i=1}^N I(x_i^{(j)}=a_{jl},y_i=C_k)} { \sum_{i=1}^N I(y_i=c_k)}$ .

4.2 用贝叶斯估计法推出朴素贝叶斯法中的概率公式（4.10）及（4.11）

P.S 条件概率的贝叶斯公式：

P (X (j) = a j l | Y = c k) = \sum N i = 1 I ( x ( j ) i = a j l , y i = c k ) + λ \sum N i = 1 I ( y i = c k ) + S j λ (4.10)

$P(X^{(j)} = a_{jl} | Y=c_k )=\frac{\sum^N_{i=1} I(x_i ^{(j)}=a_{jl},y_i=c_k) + \lambda}{\sum_{i=1}^N I(y_i = c_k)+ S_j \lambda} (4.10)$
显然

∀l=1,2,⋯,Sj,k=1,2,⋯,K, $\forall l = 1, 2, \cdots, S_j,\; k=1,2,\cdots, K,$ 有:

P λ (X (j) = a j l | Y = c k) > 0 \sum l = 1 S j P (X (j) = a j l | Y = c k) = 1

$P_{\lambda}(X^{(j)}=a_{jl}| Y=c_k) > 0\\ \sum_{l=1}^{S_j}P(X^{(j)}=a_{jl}|Y=c_k)=1$
这表明（4.10）为一个概率分布
先验概率的贝叶斯估计：

P λ (Y = c k) = \sum N i = 1 I ( y i = c k ) + λ N + K λ (4.11)

$P_{\lambda}(Y=c_k)=\frac{\sum^{N}_{i=1} I(y_i=c_k) + \lambda}{N+ K \lambda} (4.11 )$

证明：(记号同上一题) $Y$ 的取值一共有 $K$ 种情况， $\lambda$ 表示各种情况的取值初始值,即每种情况都有 $\lambda$ 次发生，所以 $\theta$ 的先验概率为： $P(\theta)=p^{\lambda}(1-p)^{(K-1)\lambda}$

P (D | θ) P (θ) = P (y 1, y 2, \dots, y N | D) P (θ) = P (y 1 | D) P (y 2 | D) \dots P (y N | D) P (θ) = p m + λ \cdot (1 - p) N - m + (k - 1) λ

$\begin{align} P(D|\theta)P(\theta) &= P(y_1,y_2,\cdots,y_N|D)P(\theta) \\ &= P(y_1|D)P(y_2|D)\cdots P(y_N|D)P(\theta) \\ &= p^{m+\lambda}\cdot\ (1-p)^{N-m+(k-1)\lambda} \end{align}$
同上题求极值得：