学习笔记-《统计学习方法》-第四章-朴素贝叶斯

最新推荐文章于 2024-10-02 23:04:10 发布

zoro-zhao

最新推荐文章于 2024-10-02 23:04:10 发布

阅读量354

点赞数

文章标签：学习机器学习算法

本文链接：https://blog.csdn.net/qq_34472257/article/details/126294621

版权

4 朴素贝叶斯

4.1.1 朴素贝叶斯的学习与分类

设输入空间 $\mathcal{X} \subseteq R^n$ 为 $n$ 维向量的集合，输出空间为类标记集合 $\mathcal{Y} = \{c_1, c_2, ..., c_k\}$ 。输入为特征向量 $\in \mathcal{X}$ ，输出为类标记（class label） $\in \mathcal{Y}$ 。 $X$ 是定义在输入空间 $\mathcal{X}$ 上的随机变量， $Y$ 是定义在输出空间 $\mathcal{Y}$ 上的随机变量， $P (X, Y)$ 是 $X$ 和 $Y$ 的联合概率分布，训练数据集
$T=\{(x_1, y_1), (x_2, y_2), ..., (x_n, y_n)\}$
由 $P (X, Y)$ 独立同分布产生。

朴素贝叶斯法通过训练数据集学习联合概率分布 $P (X, Y)$ 。具体的，是学习先验概率分布及条件概率分布。

先验概率分布
$P(Y=c_k), k=1,2,...,K$
条件概率分布
$P(X=x|Y=c_k)=P(X^{(1)}=x^{(1)}, X^{(2)}=x^{(2)}, ..., X^{(n)}=x^{(n)}|Y=c_k), k=1,2,...,K$
从而获得联合概率分布。

条件概率分布 $P(X=x|Y=c_k)$ 有指数级的参数，其估计实际上是不可能的。假设 $x^{(j)}$ 可取值有 $S_j$ 个， $j = 1, 2, .., n$ ， $Y$ 可取值有 $K$ 个，那么参数个数为 $\prod_{j=1}^{n}{S_j}$

朴素贝叶斯法为了解决该问题，作了条件独立性假设，由于这是一个较强的假设，朴素贝叶斯法因此得名。
$P(X=x|Y=c_k)=P(X^{(1)}=x^{(1)}, X^{(2)}=x^{(2)}, ..., X^{(n)}=x^{(n)}|Y=c_k)\\ =\prod_{j=1}^{n}{P(X^{(j)}=x^{(j)}|Y=c_k)}$
基于此，后验概率为
$P(Y=c_k|X=x)=\frac{P(X=x|Y=c_k)P(Y=c_k)}{\sum_k P(X=x|Y=c_k)P(Y=c_k)}$
将上式代入，可得
$P(Y=c_k|X=x)=\frac{P(Y=c_k)\prod_{j=1}^{n}{P(X^{(j)}=x^{(j)}|Y=c_k)}} {\sum_k P(Y=c_k) \prod_{j=1}^{n}{P(X^{(j)}=x^{(j)}|Y=c_k)}}$
于是得到
$y=f(x)=\underset{c_k}{argmax}\frac{P(Y=c_k)\prod_{j=1}^{n}{P(X^{(j)}=x^{(j)}|Y=c_k)}} {\sum_k P(Y=c_k) \prod_{j=1}^{n}{P(X^{(j)}=x^{(j)}|Y=c_k)}}$
又因为分母部分对于所有的 $c_k$ 是一致的，所以
$y=f(x)=\underset{c_k}{argmax} {P(Y=c_k)\prod_{j=1}^{n}{P(X^{(j)}=x^{(j)}|Y=c_k)}}$

4.1.2 后验概率最大化的定义

朴素贝叶斯实际是将实例分到后验概率最大化的类中，这等价于期望风险最小化。假设选择0-1损失函数
$\begin{cases} 1, Y \neq f(X) \\ 0, Y = f(X) \end{cases}$
期望风险函数为：
$R_{exp}(f)=E[L(Y,f(X))] =E_X \sum_{k=1}^{K} L(Y,f(X)) P(c_k|X)$
为使期望风险最小化，只需对 $X = x$ 逐个极小化，由此
$f(x)=\underset{y\in\mathcal{Y}}{argmin}\sum_{k=1}^{K} L(Y,f(X)) P(c_k|X=x) \\ = \underset{y\in\mathcal{Y}}{argmin}\sum_{k=1}^{K} P(y \neq c_k|X=x) \\ = \underset{y\in\mathcal{Y}}{argmin}\sum_{k=1}^{K} 1 - P(y = c_k|X=x) \\ = \underset{y\in\mathcal{Y}}{argmax}\sum_{k=1}^{K} P(y = c_k|X=x)$
由此，根据期望风险最小化准则得到了后验概率最大化准则，也就是贝叶斯法所采用的准则。

4.2 朴素贝叶斯法的参数估计

4.2.1 极大似然估计

先验概率的极大似然估计
$c_k) = \frac{\sum_{i=1}^{N}I(y_i = c_k)}{N}, k=1,2,...,K$
证明：

首先明确参数是什么，参数是 $p(y=c_k)$ 以及 $p(x^{(j)}=a_{jl}|y=c_k)$ ，以 $\psi$ 代表这两个参数
$$
L(\psi) = log \prod_{i=1}^N p(x_i, y_i; \psi) \
= log \prod_{i=1}^N p(x_i | y_i; \psi) p(y_i; \psi) \
= log \prod_{i=1}^N (\prod_{j=1}^n p(x_i^{(j)} | y_i ; \psi)) p(y_i; \psi) \
= \sum_{i=1}^N[log p(y_i; \psi) + \sum_{j=1}^n log p(x_i^{(j)}| y_i ; \psi)] \
代入参数 \
= \sum_{i=1}^N[\sum_{k=1}K log p(y = c_k)^{I(y_i=c_k)} + \sum_{k=1}^K \sum_{j=1}^n \sum_{l=1}^{S_j} log p(x_i^{(j)} = a_{jl}| y_i = c_k) ^{I(x_i{(j)}=a_{jl}, y_i=c_k)}] \

= \sum_{i=1}^N [\sum_{k=1}^K {I(y_i=c_k)}log p(y = c_k) + \sum_{k=1}^K \sum_{j=1}^n \sum_{l=1}^{S_j} {I(x_i^{(j)}=a_{jl}, y_i=c_k)} log p(x_i^{(j)} = a_{jl}| y_i = c_k)] \
$$
但实际上， $p(y=c_k)$ 也存在相应的约束，有约束的求极值，可以考虑使用拉格朗日乘子法。

上式子中只有前半段含有$p(y = c_k)，所以求先验概率估计时只考虑前半部分

先验概率估计

令 $\sum_{i=1}^N [\sum_{k=1}^K {I(y_i=c_k)}log p(y = c_k) + \lambda (1 - \sum_{k=1}^K p(y = c_k))]$

这里需要注意，并没有直接把 $\sum_{k=1}^K p(y = c_k))$ 代入，而是带入了 $\sum_{i=1}^N (1 - \sum_{k=1}^K p(y = c_k)))$ ，区别不大，因为都是0，代入一个和多个是一样的，但是代入多个的情况下，下面更容易求解。
$\begin{cases} \frac{\partial F}{\partial p(y = c_1)} = \sum_{i=1}^N {\frac{I(y = c_1)}{p(y = c_1)} - \lambda} = 0 \\ \frac{\partial F}{\partial p(y = c_2)} = \sum_{i=1}^N {\frac{I(y = c_2)}{p(y = c_2)} - \lambda} = 0 \\ ... \\ \frac{\partial F}{\partial p(y = c_K)} = \sum_{i=1}^N {\frac{I(y = c_K)}{p(y = c_K)} - \lambda} = 0 \\ \frac{\partial F}{\partial \lambda} = \sum_{i=1}^N \{1 - \sum_{k=1}^K p(y = c_k)\} = 0 \end{cases}$
联立前N个式子，可得
$\begin{cases} p(y = c_1) = \frac{\sum_{i=1}^N I(y = c_1)}{N \lambda} \\ p(y = c_2) = \frac{\sum_{i=1}^N I(y = c_2)}{N \lambda} \\ ... \\ p(y = c_K) = \frac{\sum_{i=1}^N I(y = c_K)}{N \lambda} \end{cases} \tag{2}$
因为 $\sum_{k=1}^K p(y = c_k) = 1$ ，所以
$\frac {\sum_{i=1}^N \sum_{i=1}^K I(y = c_k)} {N \lambda} \\ 1 = \frac {N} {N \lambda} \\ \lambda = 1$
代入(2)式，得到
$c_k) = \frac{\sum_{i=1}^N I(y = c_k)}{N} k = 1,2,3,...,K$

条件概率的极大似然估计

$\sum_{i=1}^N \{ \sum_{k=1}^K \sum_{j=1}^n ( (\sum_{l=1}^{S_j} {I(x_i^{(j)}=a_{jl}, y_i=c_k)} log p(x_i^{(j)} = a_{jl}| y_i = c_k)) + \lambda_{kj} (1 - \sum_{l=1}^{S_j} p(x^{j} = a_{jl} | y = c_k)) \} \\$

与上面类似，由于对于每个 $k, j$ 都会存在一个 $\sum_{l=1}^{S_j} p(x^{j} = a_{jl} | y = c_k) = 1$ ，所以实际上存在 $k * l$ 个约束，求导可得
$\begin{cases} \frac{\partial G}{\partial p(x_i^{(j)} = a_{jl}| y_i = c_k))} = \sum_{i=1}^N \{ \frac{I(x_i^{(j)}=a_{jl}, y_i=c_k)} {p(x_i^{(j)} = a_{jl}| y_i = c_k)} - \lambda_{kj} \} = 0 \\ \frac{\partial G}{\partial \lambda_{kj}} = \sum_{i=1}^N (1 - \sum_{l=1}^{S_j} p(x^{j} = a_{jl} | y = c_k)) = 0 \end{cases} \tag{3}$
由第一个式子可得
$p(x_i^{(j)} = a_{jl}| y_i = c_k) = \frac{\sum_{i=1}^N I(x_i^{(j)}=a_{jl}, y_i=c_k)} {N \lambda_{kj}} \tag{4}$
由第二个式子可得
$\sum_{l=1}^{S_j} p(x^{j} = a_{jl} | y = c_k)) = 1 \tag{5}$
联立两个式子可得
$\sum_{l = 1}^{S_j} \frac{\sum_{i=1}^N I(x_i^{(j)}=a_{jl}, y_i=c_k)} {N \lambda_{kj}} \\ 1 = \frac {\sum_{i = 1}^N I(y_i = c_k)} {N \lambda_{kj}} \\ N \lambda_{kj} = \sum_{i = 1}^N I(y_i = c_k)$
代入上式(4)，得到
$p(x_i^{(j)} = a_{jl}| y = c_k) = \frac{\sum_{i=1}^N I(x_i^{(j)}=a_{jl}, y_i=c_k)} {\sum_{i = 1}^N I(y_i = c_k)}$

证明完毕。

4.2.2 学习与分类算法

输入：训练数据 $T = \{(x_1, y_2), (x_2, y_2), ..., (x_N, y_N)\}$ ，其中 $x_i = (x_i^{(1)}, x_i^{(2)}, ..., x_i^{(j)})^T$ ，其中 $x_i^{(j)}$ 是第 $i$ 个样本的第 $j$ 个特征， $x_i^{(j)} \in \{a_{j1}, a_{j2}, ... a_{jS_j}\}$ ， $a_{jl}$ 是第 $j$ 个特征可能的第 $l$ 个取值， $S_j, y_i \in \{c_1, c_2, ..., c_K\}$ ；

输出：输出实例 $x$ 的分类。

（1）计算先验概率及条件概率
$$
p(y = c_k) = \frac{\sum_{i=1}^N I(y = c_k)}{N},\ \ \ \ k = 1,2,3,…,K \

p(x_i^{(j)} = a_{jl}| y = c_k) =
\frac{\sum_{i=1}^N I(x_i^{(j)}=a_{jl}, y_i=c_k)}
{\sum_{i = 1}^N I(y_i = c_k)} \
j = 1,2, …, n; \ \ l = 1,2,…, S_j; \ \ k = 1, 2, …, K
$KaTeX parse error: Can't use function '$' in math mode at position 12: （2）对于给定的实例$̲x = (x^{(1)}, x…$
P(Y = c_k) \prod_{j = 1}^n P(X ^{(j)} = x^{(j)} | Y = c_k), \ \ \ k=1,2,…,K
$KaTeX parse error: Can't use function '$' in math mode at position 9: （3）确定实例$̲x$的类$
y = \underset {c_k} {argmax} P(Y = c_k) \prod_{j = 1}^n P(X ^{(j)} = x^{(j)} | Y = c_k)
$$

4.2.3 贝叶斯估计

使用极大似然估计可能会出现所要估计的概率值为0的情况，这时会影响到后验概率的计算结果，使分类产生偏差。解决这一问题的方法是采用贝叶斯估计
$P_{\lambda}(X^{(j)} = a_{jl} | Y = c_k) = \frac{\sum_{i=1}^N I(x_i^{(j)}=a_{jl}, y_i=c_k) + \lambda} {\sum_{i = 1}^N I(y_i = c_k) + S_j \lambda}$
式中 $\lambda >= 0$ ，等价于在随机变量各个取值的频数上赋予一个正数 $\lambda > 0$ ，当 $\lambda = 0$ 的时候，就是极大似然估计。常取 $\lambda = 1$ ，这时称为拉普拉斯平滑（Laplacian smoothing）。由于对于任意的 $l = 1,2,..., S_j; \ \ k = 1, 2, ..., K$ ，都有
$P_{\lambda}(X^{(j)} = a_{jl} | Y = c_k) > 0 \\ \sum_{l = 1}^{S_j} P_{\lambda}(X^{(j)} = a_{jl} | Y = c_k) = 0$
所以贝叶斯估计也是一种概率分布，同样的，先验概率的贝叶斯估计是
$P_{\lambda}(Y = c_k) = \frac{\sum_{i=1}^N I(y = c_k) + \lambda}{N + K \lambda},\ \ \ \ k = 1,2,3,...,K$
总结

朴素贝叶斯法是典型的生成学习方法。生成学习方法由训练数据学习联合概率分布 $P (X, Y)$ ，然后求得后验概率分布 $P (X ∣ Y)$ 。
朴素贝叶斯的基本假设是条件独立性，基于此，省略率大量的参数，学习与预测大为简化，因而优点是高效，且易于实现。缺点就是分类性能不一定很高。

习题

回顾下贝叶斯估计

思路：假设概率 $P_{\lambda}(Y=c_i)$ 服从狄利克雷（Dirichlet）分布，根据贝叶斯公式，推导后验概率也服从Dirichlet分布，求参数期望；

证明步骤：

条件假设

根据朴素贝叶斯法的基本方法，训练数据集 $T=\{(x_1,y_1),(x_2,y_2),\ldots,(x_N,y_N)\}$ ，假设：
（1）随机变量 $Y$ 出现 $y=c_k$ 的次数为 $m_k$ ，即 $\displaystyle m_k=\sum_{i=1}^N I(y_i=c_k)$ ，可知 $\displaystyle \sum_{k=1}^K m_k = N$ （y总共有N个）;
（2） $P_\lambda(Y=c_k)=u_k$ ，随机变量 $u_k$ 服从参数为 $\lambda$ 的Dirichlet分布。

补充说明：

狄利克雷(Dirichlet)分布
参考PRML（Pattern Recognition and Machine Learning）一书的第2.2.1章节：⽤似然函数(2.34)乘以先验(2.38)，我们得到了参数 $u_k$ 的后验分布，形式为
$p(u|D,\alpha) \propto p(D|u)p(u|\alpha) \propto \prod_{k=1}^K u_k^{\alpha_k+m_k-1}$

该书中第B.4章节：狄利克雷分布是K个随机变量 $\leqslant u_k \leqslant 1$ 的多变量分布，其中 $k=1,2,\ldots,K$ ，并满足以下约束
$\leqslant u_k \leqslant 1, \quad \sum_{k=1}^K u_k = 1$
记 $u=(u_1,\ldots,u_K)^T, \alpha=(\alpha_1,\ldots,\alpha_K)^T$ ，有
$Dir(u|\alpha) = C(\alpha) \prod_{k-1}^K u_k^{\alpha_k - 1} \\ E(u_k) = \frac{\alpha_k}{\displaystyle \sum_{k=1}^K \alpha_k}$
为什么假设 $Y=c_k$ 的概率服从Dirichlet分布？
答：原因如下：
（1）首先，根据PRML第B.4章节，Dirichlet分布是Beta分布的推广。
（2）由于，Beta分布是二项式分布的共轭分布，Dirichlet分布是多项式分布的共轭分布。Dirichlet分布可以看作是“分布的分布”；
（3）又因为，Beta分布与Dirichlet分布都是先验共轭的，意味着先验概率和后验概率属于同一个分布。当假设为Beta分布或者Dirichlet分布时，通过获得大量的观测数据，进行数据分布的调整，使得计算出来的概率越来越接近真实值。
（4）因此，对于一个概率未知的事件，Beta分布或Dirichlet分布能作为表示该事件发生的概率的概率分布。

大佬牛逼…感谢网上的解答

得到先验概率：
$\displaystyle P(u)=P(u_1,u_2,\ldots,u_K) = C(\lambda) \prod_{k=1}^K u_k^{\lambda - 1}$
得到似然函数
记 $m=(m_1, m_2, \ldots, m_K)^T$ ，可得似然函数为
$u_1^{m_1} \cdot u_2^{m_2} \cdots u_K^{m_K} = \prod_{k=1}^K u_k^{m_k}$
得到后验概率分布
结合贝叶斯公式，求 $u$ 的后验概率分布，可得
$\frac{P(m|u)P(u)}{P(m)}$
根据假设(1)，可得
$P(u|m,\lambda) \propto P(m|u)P(u|\lambda) \propto \prod_{k=1}^K u_k^{\lambda+m_k-1}$
上式表明，后验概率分布P(u|m,\lambda)P(u∣m,λ)也服从Dirichlet分布
得到随机变量uu的期望
根据后验概率分布 $P(u|m,\lambda)$ 和假设(1)，求随机变量 $u$ 的期望，可得
$E(u_k) = \frac{\alpha_k}{\displaystyle \sum_{k=1}^K \alpha_k}$
其中 $\alpha_k = \lambda+m_k$ ，则
$\begin{aligned} E(u_k) &= \frac{\alpha_k}{\displaystyle \sum_{k=1}^K \alpha_k} \\ &= \frac{\lambda+m_k}{\displaystyle \sum_{k=1}^K (\lambda + m_k)} \\ &= \frac{\lambda+m_k}{\displaystyle \sum_{k=1}^K \lambda +\sum_{k=1}^K m_k} \\ &= \frac{\lambda+m_k}{\displaystyle K \lambda + N } \\ &= \frac{\displaystyle \sum_{i=1}^N I(y_i=c_k) + \lambda}{N+K \lambda} \end{aligned}$