统计学习方法第四章习题答案

最新推荐文章于 2021-06-28 01:46:11 发布

Brielleqqqqqqjie

最新推荐文章于 2021-06-28 01:46:11 发布

阅读量3.1k

点赞数 7

分类专栏：统计学习方法文章标签：统计学习方法贝叶斯估计极大似然分布

本文链接：https://blog.csdn.net/qq_41562704/article/details/95320814

版权

统计学习方法专栏收录该内容

12 篇文章 46 订阅

订阅专栏

第4章的习题与习题1.1有些相似，建议两章一起看，关于极大似然估计和贝叶斯估计我在第一章的习题中讲解了，可以先看看第一章的解答。
第一章习题是在伯努利试验中做贝叶斯估计时，采用的是

代码实现

在解习题前先把这一章的算法4.1和算法4.2实现一下，4.2是在4.1的基础上使用了拉普拉斯平滑，换言之4.1是4.2 $\lambda=0$ 的特殊情况。这里实现4,2，数据即为例题4.1中的训练数据

import numpy as np

def loadData():
    X = np.array([[1,1,1,1,1,2,2,2,2,2,3,3,3,3,3],
                ['S','M','M','S','S','S','M','M','L','L','L','M','M','L','L']])
    Y = np.array([-1,-1,1,1,-1,-1,-1,1,1,1,1,1,1,1,-1])

    return X, Y

def Bayes(X, Y, x, Lambda = 0):
    print("lambda = %d"%Lambda)
    setY = list(set(Y))
    PY = [(sum(Y == y) + Lambda) / (len(Y) + len(setY) * Lambda) for y in setY]
    resP = {}
    for i in range(len(setY)):
        tempresP = PY[i]
        for j in range(len(x)):
            count = 0 + Lambda
            for k in range(len(X[j])):
                if X[j][k] == x[j] and Y[k] == setY[i]:
                    count += 1
            P = count / (sum(Y == setY[i]) + Lambda * len(set(X[j])))
            tempresP *= P
        resP[setY[i]] = tempresP
    print(resP)


if __name__ == "__main__":
    X, Y = loadData()
    x = ['2', 'S']
    Bayes(X, Y, x, 0)

运行结果
在这里插入图片描述

习题4.1

题目：用极大似然估计法推出朴素贝叶斯法中的概率估计公式（4.8）及公式（4.9）。

公式4.8
$P\left(Y=c_{k}\right)=\frac{\sum_{i=1}^{N} I\left(y_{i}=c_{k}\right)}{N}, \quad k=1,2, \ldots, K$

其中 $I$ 为指示函数， $y = c_{k}$ 时为1，否则为0，在书的第10页有介绍。
设 $P\left(Y=c_{k}\right)=\theta$ ，进行 $N$ 次实验，有 $n$ 次 $Y=c_{k}$ .
即 $n=\sum_{i=1}^{N} I\left(y_{i}=c_{k}\right)$

$P\left(Y=c_{k}\right)$	$P\left(Y\neq c_{k}\right)$
$\theta$	$1-\theta$

则有 $L(\theta) = \theta^n\cdot(1-\theta)^{N-n}$
一般取对数作为似然函数 $L(\theta) = n\cdot log\theta+(N-n)\cdot log(1-\theta)$
求导 $L'(\theta) = n\cdot \frac{1}{\theta}+(N-n)\cdot \frac{1}{1-\theta}$
令 $L^{'} = 0$ ，有 $\theta = \frac{n}{N} = \frac{\sum_{i=1}^{N} I\left(y_{i}=c_{k}\right)}{N}$
得证

公式4.9
$P\left(X^{(j)}=a_{j l} | Y=c_{k}\right)=\frac{\sum_{i=1}^{N} I\left(x_{i}^{(j)}=a_{j l}, y_{i}=c_{k}\right)}{\sum_{i=1}^{N} I\left(y_{i}=c_{k}\right)}$

证明过程类似，设 $P\left(X^{(j)}=a_{j l} | Y=c_{k}\right)=\theta$ ，进行了N次实验，有 $n$ 次 $Y=c_{k}$ ，有 $m$ 次 $Y=c_{k},X^{(j)}=a_{j l}$
即 $n=\sum_{i=1}^{N} I\left(y_{i}=c_{k}\right),m=\sum_{i=1}^{N} I\left(x_{i}^{(j)}=a_{j l}, y_{i}=c_{k}\right)$
有 $L(\theta) = \theta^m\cdot(1-\theta)^{n-m}$
取对数 $L(\theta) = m\cdot log\theta+(n-m)\cdot log(1-\theta)$
求导 $L'(\theta) = m\cdot \frac{1}{\theta}+(n-m)\cdot \frac{1}{1-\theta}$
令 $L^{'} = 0$ ，有 $\theta = \frac{m}{n} = \frac{\sum_{i=1}^{N} I\left(x_{i}^{(j)}=a_{j l}, y_{i}=c_{k}\right)}{\sum_{i=1}^{N} I\left(y_{i}=c_{k}\right)}$
得证

习题4.2

用贝叶斯估计法推出朴素贝叶斯法中的概率估计公式（4.10）及公式（4.11）。
与习题4.1类似，假设进行了N次实验，有 $n_{i}$ 次 $Y=c_{i}$ ，有 $m_{i}$ 次 $Y=c_{i},X^{(j)}=a_{j l}$
即 $n_{i}=\sum_{i=1}^{N} I\left(y_{i}=c_{i}\right),m_{i}=\sum_{i=1}^{N} I\left(x_{i}^{(j)}=a_{j l}, y_{i}=c_{i}\right)$

公式4.11
$P_{\lambda}\left(Y=c_{k}\right)=\frac{\sum_{i=1}^{N} I\left(y_{i}=c_{k}\right)+\lambda}{N+K \lambda}$

假设 $P_{\lambda}\left(Y=c_{i}\right)=\theta_{i}$ ，其中 $\theta_{i}$ 服从参数为 $\alpha_{i}$ 的狄利克雷分布。
即有 $f\left(\theta_{1}, \cdots, \theta_{K} | \alpha_{1}, \ldots, \alpha_{k}\right)=\frac{1}{B\left(\alpha_{1}, \cdots, \alpha_{K}\right)} \prod_{i=1}^{K} \theta_{i}^{\alpha_{i}-1}$
与极大似然估计类似，有 $P\left(N | \theta_{1}, \cdots,\theta_{K}\right)=\theta^{n_{1}}_{1}\theta^{n_{2}}_{2}...\theta^{n_{K}}_{K}=\prod_{i=1}^{K} \theta_{i}^{n_{i}}$
$P\left(\theta_{1}, \cdots, \theta_{K} | N\right) \propto P\left(N | \theta_{1}, \cdots, \theta_{K}\right) P\left(\theta_{1}, \cdots, \theta_{k}\right)\propto\prod_{i=1}^{K} \theta_{i}^{\alpha_{i}-1}\prod_{i=1}^{K} \theta_{i}^{n_{i}}\propto\prod_{i=1}^{K} \theta_{i}^{\alpha_{i}-1+n_{i}}$
所以有后验概率 $P\left(\theta_{1}, \cdots, \theta_{k} | N\right)$ 服从于狄利克雷分布
$P_{\lambda}\left(Y=c_{i}\right)$ 取 $\theta_{i}$ 的期望 $E(\theta_{i})=\frac{n_{i}+\alpha_{i}}{N+\sum_{j=1}^{k}\left(\alpha_{j}\right)}$ ，若假设 $\theta_{i}$ 服从参数为 $\lambda$ 的狄利克雷分布，即 $\alpha_{1}=\alpha_{2}=...=\alpha_{k}=\lambda$ ,则有 $E(\theta_{i})=\frac{\sum_{i=1}^{N} I\left(y_{i}=c_{i}\right)+\lambda}{N+K*\lambda}$
得证

公式4.10
$P_{\lambda}\left(X^{(j)}=a_{j{l}} | Y=c_{k}\right)=\frac{\sum_{i=1}^{N} I\left(x_{i}^{(j)}=a_{j}, y_{i}=c_{k}\right)+\lambda}{\sum_{i=1}^{N} I\left(y_{i}=c_{k}\right)+S_{j} \lambda}$ ,其中 $S_{j}$ 表示第 $j$ 个特征的取值个数

证明过程类似，知识参数有点变动，设 $P\left(X^{(j)}=a_{j l} | Y=c_{i}\right)=\theta_{i}$ ， $\theta_{i}$ 服从于参数为 $\alpha_{i}$ 的狄利克雷分布。
即有 $f\left(\theta_{1}, \cdots, \theta_{S_{j}} | \alpha_{1}, \ldots, \alpha_{S_{j}}\right)=\frac{1}{B\left(\alpha_{1}, \cdots, \alpha_{S_{j}}\right)} \prod_{i=1}^{S_{j}} \theta_{i}^{\alpha_{i}-1}$
同理 $P\left(n | \theta_{1}, \cdots,\theta_{k}\right)=\theta^{m_{1}}_{1}\theta^{m_{2}}_{2}...\theta^{m_{K}}_{K}=\prod_{i=1}^{S_{j}} \theta_{i}^{m_{i}}$
$P\left(\theta_{1}, \cdots, \theta_{S_{j}} | n\right) \propto P\left(n | \theta_{1}, \cdots, \theta_{S_{j}}\right) P\left(\theta_{1}, \cdots, \theta_{S_{j}}\right)\propto\prod_{i=1}^{S_{j}} \theta_{i}^{\alpha_{i}-1}\prod_{i=1}^{S_{j}} \theta_{i}^{m_{i}}\propto\prod_{i=1}^{S_{j}} \theta_{i}^{\alpha_{i}-1+m_{i}}$
所以有后验概率 $P\left(\theta_{1}, \cdots, \theta_{S_{j}} | n\right)$ 服从于狄利克雷分布
$P_{\lambda}\left(X^{(j)}=a_{j{l}} | Y=c_{k}\right)$ 取 $\theta_{i}$ 的期望 $E(\theta_{i})=\frac{m_{j}+\alpha_{i}}{n+\sum_{j=1}^{S_{j}}\left(\alpha_{j}\right)}$ ，若假设 $\theta_{i}$ 服从参数为 $\lambda$ 的狄利克雷分布，即 $\alpha_{1}=\alpha_{2}=...=\alpha_{S_{j}}=\lambda$ ,则有 $E(\theta_{i})=\frac{\sum_{i=1}^{N} I\left(x_{i}^{(j)}=a_{j l}, y_{i}=c_{i}\right)+\lambda}{\sum_{i=1}^{N} I\left(y_{i}=c_{i}\right)+S_{j}*\lambda}$