【李航统计学习笔记】第四章：朴素贝叶斯

最新推荐文章于 2022-07-30 19:49:52 发布

西风瘦马1912

最新推荐文章于 2022-07-30 19:49:52 发布

阅读量189

点赞数

分类专栏：李航统计学习笔记文章标签：学习算法机器学习

本文链接：https://blog.csdn.net/weixin_39236489/article/details/125966281

版权

李航统计学习笔记专栏收录该内容

11 篇文章 2 订阅

订阅专栏

（尾巴：补充一些例子）

4.1 直观理解

条件概率

例子4.1：

女朋友和妈妈掉河里了，路人拿出来3颗豆, 两颗红豆1颗绿豆。如果我抽中红豆救女朋友, 抽中绿豆救妈妈。我和路人各自抽了一颗, 路人发现自己抽中的是绿豆，他想用剩下的那颗和我换，我换不换？换不换豆女朋友活下去的概率一样吗？

直觉来讲：
换不换豆我抽中红豆的概率应该都是 $1/3$ 。这时路人跟我说他的是绿豆, 排除一颗, 我抽中红豆的概率是 $1/2$ 。换不换概率都是 $1/2$ 。

计算一下：

如果更换，那么其实就是重新在两个豆子中选了，所以概率是:
$\mid B)=\frac{P(B \mid A) P(A)}{P(B)}=\frac{1 \cdot \frac{1}{3}}{\frac{2}{3}}=\frac{1}{2}$
如果不换，其实还是按照一开始两人同时挑选的概率：
$\mid B)=\frac{P(B \mid A) P(A)}{P(B)}=\frac{1 \cdot \frac{1}{3}}{1}=\frac{1}{3}$
设 A表示我抽中的是红豆，B表示路人抽中的是绿豆。这里的差别在于有了先后抽取的顺序。更换，一位着重新在第一次抽取的基础上进行了第二次抽取。结论：如果要救女朋友，最好和路人交换一下。如果要救妈, 最好不要换。

条件概率： $\mid B)$ 表示在 $B$ 发生的条件下发生 $A$ 的概率。
$\mid B)=\frac{P(A B)}{P(B)}=\frac{P(B \mid A) P(A)}{P(B)}$

参数估计

例子4.2：

假设有一个手写数据集，里面有 100 条记录，其中第0-9条记录是10个人分别写的0。10-19条是10个人分别写的 1。 $\cdots \cdots$ 。第90-99条是10个人分别写的10 。小红写了一个数字X，怎么判断是数字几呢？

朴素贝叶斯工作原理：
$\mid X)=?, P(Y=1 \mid X)=?, \cdots \cdots, P(Y=10 \mid X)=?$
找到概率值最高的，就是对应的数字。

对于刚刚的手写数据集, 我们设数字的类别为 $C_{k}, C_{0}$ 表示数字 $\cdots \cdots$ 。刚才数字判别公式可以修改为 $P\left(Y=C_{\mathrm{k}} \mid X=x\right)$ 。
$\begin{aligned} P\left(Y=C_{\mathrm{k}} \mid X=x\right) &=\frac{P\left(X=x \mid Y=C_{k}\right) P\left(Y=C_{k}\right)}{P(X=x)} \\ =& \frac{P\left(X=x \mid Y=C_{k}\right) P\left(Y=C_{k}\right)}{\sum_{k} P\left(X=x, Y=C_{k}\right)} \\ =& \frac{P\left(X=x \mid Y=C_{k}\right) P\left(Y=C_{k}\right)}{\sum_{k} P\left(X=x \mid Y=C_{k}\right) P\left(Y=C_{k}\right)}\\ =&\frac{P\left(X=x \mid Y=C_{k}\right) P\left(Y=C_{k}\right)}{\sum_{k} P\left(X=x \mid Y=C_{k}\right) P\left(Y=C_{k}\right)} \\ =&\frac{P\left(Y=C_{k}\right) \prod_{j} P\left(X^{(j)}=x^{(j)} \mid Y=C_{k}\right)}{\sum_{k} P\left(Y=C_{k}\right) \prod_{j} P\left(X^{(j)}=x^{(j)} \mid Y=C_{k}\right)} \end{aligned}$
另外：
$\begin{aligned} P\left(X=x \mid Y=C_{k}\right) &=P\left(X^{(1)}=x^{(1)} \mid Y=C_{k}\right) P\left(X^{(2)}=x^{(2)} \mid Y=C_{k}\right) \cdots P\left(X^{(j)}=x^{(j)} \mid Y=C_{k}\right) \\ &=\prod_{j} P\left(X^{(j)}=x^{(j)} \mid Y=C_{k}\right) \end{aligned}$
朴素的意义：特征独立
$\begin{aligned} f(x)=\underset{C_{k}}{\operatorname{argmax}} P\left(Y=C_{k} \mid X=x\right) &=\frac{P\left(Y=C_{k}\right) \prod_{j} P\left(X^{(j)}=x^{(j)} \mid Y=C_{k}\right)}{\sum_{k} P\left(Y=C_{k}\right) \prod_{j} P\left(X^{(j)}=x^{(j)} \mid Y=C_{k}\right)} \\ &=P\left(Y=C_{k}\right) \prod_{j} P\left(X^{(j)}=x^{(j)} \mid Y=C_{k}\right) \end{aligned}$
又
$P\left(Y=C_{k}\right)=\frac{\sum_{i=1}^{N} I\left(y_{i}=C_{k}\right)}{N}, k=1,2, \ldots, K$
其中I是指示函数:
$\begin{cases}1, & \text { 条件 } x \text { 为真 } \\ 0, & \text { 条件 } x \text { 为假 }\end{cases}$
假设第 $\mathrm{j}$ 个特征 $x^{(j)}$ 可能取值的集合为 $\left\{a_{j 1}, a_{j 2}, \ldots, a_{j S_{j}}\right\}$
$\begin{gathered} P\left(X^{(j)}=a_{j l} \mid Y=C_{k}\right)=\frac{\sum_{i=1}^{N} I\left(x_{i}^{(j)}=a_{j l}, y_{i}=C_{k}\right)}{\sum_{i=1}^{N} I\left(y_{i}=C_{k}\right)} \\ j=1,2, \ldots, n ; l=1,2, \ldots, S_{j} ; k=1,2, \ldots, K \end{gathered}$

这里注意：

统计数据集当中每个类别的数目, 例如数据集大小为100，其中5出现了20次, 那么 $ P\left(Y=C_{5}\right)=\dfrac{20}{100}=0.2$
统计当类别为 $C_{k}$ 时, $x_{i}^{(j)}=a_{j l}$ 出现的次数占类别为 $C_{k}$ 的样本数目的比例

算法4.1: 朴素贝叶斯算法

输入：训练数据 $T=\left\{\left(x_{1}, y_{1}\right),\left(x_{2}, y_{2}\right), \ldots,\left(x_{N}, y_{N}\right)\right\}$ ,其中 $x_{i}=\left(x_{i}^{(1)}, x_{i}^{(2)}, \ldots, x_{i}^{(n)}\right)^{T}, x_{i}^{(j)}$ 是第 $i$ 个样本的第 $j$ 个特征， $x_{i}^{(j)} \in\left\{a_{j 1}, a_{j 2}, \ldots, a_{j s_{j}}\right\}$ ， $a_{j l}$ 是第 $j$ 个特征可能取的第 $l$ 个值， $\ldots, n, l=1,2, \ldots, S_{j}, \quad y_{i} \in\left\{c_{1}, c_{2}, \ldots, c_{K}\right\}$ .实例 $x$

输出:实例 $x$ 的分类

(1)计算先验概率以及条件概率
$\begin{gathered} P\left(Y=c_{k}\right)=\frac{\sum_{i=1}^{N} I\left(y_{i}=c_{k}\right)}{N}, \quad k=1,2, \ldots, K \\ P\left(X^{(j)}=a_{j l} \mid Y=c_{k}\right)=\frac{\sum_{i=1}^{N} I\left(x_{i}^{(j)}=a_{j l}, y_{i}=c_{k}\right)}{\sum_{i=1}^{N} I\left(y_{i}=c_{k}\right)}, \quad j=1,2, \ldots, n ; l=1,2, \ldots, S_{j} ; k=1,2, \ldots, k \end{gathered}$
(2)对于给定的实例 $x=\left(x^{(1)}, x^{(2)}, \ldots, x^{(n)}\right)^{T}$ ，计算
$P\left(Y=c_{k}\right) \prod_{j=1}^{n} P\left(X^{(j)}=x^{(j)} \mid Y=c_{k}\right), \quad k=1,2, \ldots, K$
(3)确定实例 $x$ 的类
$y=\underset{c_{k}}{\operatorname{argmax}} P\left(Y=c_{k}\right) \prod_{j=1}^{n} P\left(X^{(j)}=x^{(j)} \mid Y=c_{k}\right)$

总结

条件概率公式： $\mid B)=\dfrac{P(A B)}{P(B)}=\dfrac{P(B \mid A) P(A)}{P(B)}$
使用条件概率公式逐步导出到最后参数估计的步骤需牢记。（从条件概率公式逐步替换变复杂, 最后因为分母是常数再简化）。
后续会遇到很多类似的推导过程, 一般都是先各种替换变复杂最后简化（先膨胀再瘪下去）。

4.2 贝叶斯估计

其实我们在上一个section得到的
$\begin{gathered} P\left(X^{(j)}=a_{j l} \mid Y=C_{k}\right)=\frac{\sum_{i=1}^{N} I\left(x_{i}^{(j)}=a_{j l}, y_{i}=C_{k}\right)}{\sum_{i=1}^{N} I\left(y_{i}=C_{k}\right)} \\ j=1,2, \ldots, n ; l=1,2, \ldots, S_{j} ; k=1,2, \ldots, K \end{gathered}$
是有问题的。因为公式的坟墓有可能为0！

例子：

数据集大小为 100 , 其中属于数字0的样本数有 10 个, 属于数字1的样本数0个, $\cdots \cdots$ 。当我要计算 $P\left(X^{(j)}=a_{j l} \mid Y=C_{1}\right)$ 时 $\cdots \cdots$

上式就不能直接使用了。

我们要对公式做一点改动
$P\left(X^{(j)}=a_{j l} \mid Y=C_{k}\right)=\frac{\sum_{i=1}^{N} I\left(x_{i}^{(j)}=a_{j l}, y_{i}=C_{k}\right)+\lambda}{\sum_{i=1}^{N} I\left(y_{i}=C_{k}\right)+S_{j} \lambda}$
$S_j:x_i$ 是可取特征数目

4.3 后验概率最大化

后验概率最大化等价于期望风险最小化。假设朴素贝叶斯使用0-1损失函数：
$\begin{cases}1, & Y \neq f(x) \\ 0, & Y=f(x)\end{cases}$
此时期望风险为：
$\begin{aligned} R_{\exp }(f) &=E[L(Y, f(x))] \\ &=E_{x} \sum_{k=1}^{K}\left[L\left(C_{k}, f(x)\right)\right] P\left(C_{k} \mid X=x\right) \end{aligned}$
只需对 $X = x$ 逐个极小化：
$\begin{aligned} f(x) &=\underset{y \in \gamma}{\operatorname{argmin}} \sum_{k=1}^{K}\left[L\left(C_{k}, y\right)\right] P\left(C_{k} \mid X=x\right) \\ &=\underset{y \in \gamma}{\operatorname{argmin}} \sum_{k=1}^{K} P\left(y \neq C_{k} \mid X=x\right) \\ &=\underset{y \in \gamma}{\operatorname{argmin}}\left(1-P\left(y \neq C_{k} \mid X=x\right)\right) \\ &=\underset{y \in \gamma}{\operatorname{argmax}} P\left(y=C_{k} \mid X=x\right) \end{aligned}$
由此可得，期望风险最小化准则变成了后验概率最大化准则。也就是朴素贝叶斯所采用的定理。

西风瘦马1912

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
【李航统计学习笔记】第四章：朴素贝叶斯

（尾巴：补充一些例子）例子4.1：女朋友和妈妈掉河里了，路人拿出来3颗豆, 两颗红豆1颗绿豆。如果我抽中红豆救女朋友, 抽中绿豆救妈妈。我和路人各自抽了一颗, 路人发现自己抽中的是绿豆，他想用剩下的那颗和我换，我换不换？换不换豆女朋友活下去的概率一样吗？直觉来讲：换不换豆我抽中红豆的概率应该都是 1/31 / 31/3 。这时路人跟我说他的是绿豆, 排除一颗, 我抽中红豆的概率是 1/21 / 21/2 。换不换概率都是 1/21 / 21/2 。计算一下：如果更换，那么其实就是重新在两个豆子中选了，所以
复制链接

扫一扫