朴素贝叶斯法，后验概率最大化的含义，参数估计

最新推荐文章于 2022-05-02 22:20:30 发布

星海浮生

最新推荐文章于 2022-05-02 22:20:30 发布

阅读量490

点赞数

分类专栏：机器学习

本文链接：https://blog.csdn.net/Zhang_0702_China/article/details/114784271

版权

机器学习专栏收录该内容

12 篇文章 7 订阅

订阅专栏

文章目录

朴素贝叶斯法
后验概率最大化的含义
参数估计
- 极大似然估计
- 贝叶斯估计
参考资料

朴素贝叶斯法

输出取值： $\in \{ c_{1}, c_{2}, ..., c_{k} \}$

输入取值：假设 $x^{(j)}$ 可取值有 $S_{j}$ 个，其中 $j = 1, 2, . . ., n$

条件独立性假设：
$\space | \space Y = c_{k}) = P(X^{(1)} = x^{(1)}, X^{(2)} = x^{(2)}, ..., X^{(n)} = x^{(n)} \space | \space Y = c_{k}) = \prod_{j = 1}^{n} P(X^{(j)} = x^{(j)} \space | \space Y = c_{k}) \quad (1.1)$

朴素贝叶斯法由此得名。

由贝叶斯定理，得到后验概率：
$c_{k} \space | \space X = x) = \frac {P(X = x \space | \space Y = c_{k}) \cdot P(Y = c_{k})} {\sum_{k} P(X = x \space | \space Y = c_{k}) \cdot P(Y = c_{k})} \quad (1.2)$

将式（1.1）带入（1.2），有：
$c_{k} \space | \space X = x) = \frac {P(Y = c_{k}) \cdot \prod_{j}^{n} P(X^{(j)} = x^{(j)} \space | \space Y = c_{k})} {\sum_{k} P(Y = c_{k}) \cdot \prod_{j}^{n} P(X^{(j)} = x^{(j)} \space | \space Y = c_{k})} \quad (1.3)$

上式即为朴素贝叶斯法分类的基本公式。故，朴素贝叶斯分类器可表示为：
$\space \underset {c_{k}} {max} \space \frac {P(Y = c_{k}) \cdot \prod_{j}^{n} P(X^{(j)} = x^{(j)} \space | \space Y = c_{k})} {\sum_{k} P(Y = c_{k}) \cdot \prod_{j}^{n} P(X^{(j)} = x^{(j)} \space |\space Y = c_{k})} \quad (1.4)$

由于上式对所有分母都是相同的，故：
$\space \underset {c_{k}} {max} \space P(Y = c_{k}) \cdot \prod_{j}^{n} P(X^{(j)} = x^{(j)} \space | \space Y = c_{k}) \quad (1.5)$

后验概率最大化的含义

期望风险最小化，选择 0-1 损失函数：
$\begin{cases} 1, \quad Y \neq f(X) \\ 0, \quad Y = f(X) \end{cases} \quad (2.1)$

式中， $f (X)$ 是分类决策函数。

期望风险函数为：
$R_{exp}(f) = E[L(Y, f(X))] \quad (2.2)$

上式中，期望是对联合分布 $P (X, Y)$ 取的，由此取条件期望，得：
$R_{exp}(f) = E[L(Y, f(X))] = \sum_{x} \sum_{k} L(c_{k}, f(x)) \cdot P(Y = c_{k}, X = x) = \sum_{x} \sum_{k} L(c_{k}, f(x)) \cdot P(Y = c_{k} \space | \space X = x) \cdot P(X = x) = \sum_{x} P(X = x) \sum_{k} L(c_{k}, f(x)) \cdot P(Y = c_{k} \space | \space X = x) = E_{X}[\sum_{k} L(c_{k}, f(x)) \cdot P(Y = c_{k} \space | \space X = x)] \quad (2.3)$

为使期望风险最小化，只需对 $X = x$ 逐个极小化，得：
$\space \underset {y} {min} \sum_{k} L(c_{k}, f(x)) \cdot P(Y = c_{k} \space | \space X = x) = arg \space \underset {c_{k}} {min} \sum_{k} P(Y \neq c_{k} \space | \space X = x) = arg \space \underset {c_{k}} {min} \space (1 - P(Y = c_{k} \space | \space X = x)) = arg \space \underset {c_{k}} {max} \space P(Y = c_{k} \space | \space X = x) \quad (2.4)$
由期望风险最小化准则，可得后验概率最大化准则，即为朴素贝叶斯法所采用的原理。

综上所述，后验概率最大化等价于 0-1 损失函数时的期望风险最小化。

参数估计

在朴素贝叶斯法中，学习意味着估计先验概率 $P(Y = c_{k})$ 和条件概率 $P(X^{(j)} = x^{(j)} \space | \space Y = c_{k})$ 。

极大似然估计

先验概率 $P(Y = c_{k})$ 的极大似然估计：
$c_{k}) = \frac {\sum_{i = 1}^{N} I(y_{i} = c_{k})} {N} \quad k = 1, 2, ..., K \quad (3.1)$

设第 $j$ 个特征 $x_{(j)}$ 可能取值的集合为 ${a_{j, 1}, a_{j, 2}, ..., a_{j, S_{j}}\}$ ，则条件概率 $P(X_{(j)} = a_{j, l} \space | \space Y = c_{k})$ 的极大似然估计为：
$P(X_{(j)} = a_{j, l} \space | \space Y = c_{k}) = \frac {\sum_{i = 1}^{N} I(x_{i}^{(j)} = a_{j, l}, y_{i} = c_{k})} {\sum_{j = 1}^{N} I(y_{i} = c_{k})} \quad j = 1, 2, ..., n; \quad l = 1, 2, ..., S_{j}; \quad k = 1, 2, ..., K \quad (3.2)$

贝叶斯估计

先验概率的贝叶斯估计：
$P_{\lambda}(Y = c_{k}) = \frac {\sum_{i = 1}^{N} I(y_{i} = c_{k}) + \lambda} {N + k \cdot \lambda} \quad (3.3)$

条件概率的贝叶斯估计：
$P_{\lambda}(X^{(j)} = a_{j, l} \space | \space Y = c_{k}) = \frac {\sum_{i = 1}^{N} I(x_{i}^{(j)} = a_{j, l}, y_{i} = c_{k}) + \lambda} {\sum_{i = 1}^{N} I(y_{i} = c_{k}) + S_{j} \cdot \lambda} \quad (3.4)$

其中， $\lambda \geq 0$ 。

当 $\lambda = 0$ 时，即为极大似然估计；
常取 $\lambda = 1$ ，此时称为拉普拉斯平滑（Laplace smoothing）。

显然有：
$P_{\lambda}(X^{(j)} = a_{j, l} \space | \space Y = c_{k}) > 0 \quad j = 1, 2, ..., n; \quad k = 1, 2, ..., K; \quad l = 1, 2, ..., S_{j} \\ \sum_{l = 1}^{S_{j}} P(X^{(j)} = a_{j, l} \space | \space Y = c_{k}) = 1 \quad j = 1, 2, ..., n; \quad k = 1, 2, ..., K$