朴素贝叶斯（一）|基本方法+后验概率最大化| 《统计学习方法》学习笔记（十五）

最新推荐文章于 2022-08-13 22:19:43 发布

Sany 何灿

最新推荐文章于 2022-08-13 22:19:43 发布

阅读量556

点赞数 1

分类专栏：机器学习理论文章标签：机器学习

本文链接：https://blog.csdn.net/sanyho/article/details/105803162

版权

机器学习理论专栏收录该内容

30 篇文章 12 订阅

订阅专栏

朴素贝叶斯（naive Bayes）法是基于贝叶斯定理与特征条件独立假设的分类方法。对于给定的训练数据集，首先基于特征条件独立假设学习输入/输出的联合概率分布；然后基于此模型，对给定的输入x，利用贝叶斯定理求出后验概率最大的输出y。朴素贝叶斯法实现简单，学习与预测的效率都很高，是一种常用的方法。

朴素贝叶斯法的学习与分类

1. 基本方法

设输入空间 $\chi \subseteq \bold R^n$ 为n维向量的集合，输出空间为类标记集合 $\gamma = {c_1,c_2,...,c_K}$ 。输入为特征向量 $x\in \chi$ ，输出为类标记（class label） $y\in \gamma$ 。X是定义在输入空间 $\chi$ 上的随机向量，Y是定义在输出空间 $\gamma$ 上的随机变量。 $P (X, Y)$ 是 $X$ 和 $Y$ 的联合概率分布。训练数据集
$T=\{(x_1,y_1),(x_2,y_2),...,(x_N,y_N)\}$
由 $P (X, Y)$ 独立同分布产生。

朴素贝叶斯法通过训练数据集学习联合概率分布 $P (X, Y)$ 。具体地，学习以下先验概率分布及条件概率分布。先验概率分布
$P(Y=c_k),\quad k=1,2,...,K$
条件概率分布
$P(X=x|Y=c_k)=P(X^{(1)}=x^{(1)},..,X^{(n)}=x^{(n)}|y=c_k),\quad k=1,2,...,K$
于是学到联合概率分布 $P (X, Y)$ .

条件概率分布 $P(X=x|Y=c_k)$ 有指数级数量的参数，其估计实际是不可行的。事实上，假设 $x^{(j)}$ 可取值有 $S_j$ 个， $j = 1, 2, . ., n$ ，Y可取值有K个，那么参数个数为 $K\prod_{i=1}^nS_j$ 。

朴素贝叶斯法对条件概率分布作了条件独立性的假设。由于这是一个较强的假设，朴素贝叶斯法也由此得名。具体地，条件独立性假设是
$P(X=x|Y=c_k)=P(X^{(1)}=x^{(1)}...,X^{(n)}=x^{(n)}|Y=c_k) =\prod_{j=1}^nP(X^{(j)}=x^{(j)}|Y=c_k) \tag{1}$
朴素贝叶斯法实际上学习到生成数据的机制，所以属于生成模型。条件独立假设等于是说用于分类的特征在类确定的条件下都是条件独立的。这一假设使朴素贝叶斯法变得简单，但有时会牺牲一定的分类准确率。

朴素贝叶斯法分类时，对给定的输入x，通过学习到的模型计算后验概率分布 $P(Y=c_k|X=x)$ ，将后验概率最大的类作为x的类输出。后验概率计算根据贝叶斯定理进行：
$P(Y=c_k|X=x)=\frac{P(X=x|Y=c_k)P(Y=c_k)}{\sum_kP(X=x|Y=c_k)P(Y=c_k)} \tag{2}$
将（1）式代入（2）式，有
$P(Y=c_k|X=x)=\frac{P(Y=c_k)\prod_jP(X^{(j)}=x^{(j)}|Y=c_k)}{\sum_kP(Y=c_k)\prod_jP(X^{(j)}=x^{(j)}|Y=c_k)},\quad k=1,2,...,K$
这是朴素贝叶斯法分类的基本公式。于是，朴素贝叶斯分类器可表示为
$y=f(x)=agr\space max_{c_k}\frac{P(Y=c_k)\prod_jP(X^{(j)}=x^{(j)}|Y=c_k)}{\sum_k P(Y=c_k)\prod_jP(X^{(j)}=x^{(j)}|Y=c_k)} \tag{3}$
注意到，在上式（3）中分母对所有 $c_k$ 都是相同的，所以
$y=arg\space max_{c_k}P(Y=c_k)\prod_jP(X^{(j)}=x^{(j)}|Y=c_k)$

2. 后验概率最大化的含义

朴素贝叶斯法将实例分到后验概率最大的类中。这等价于期望风险最小化。假设选择0-1损失函数：
$\begin{cases} 1, & Y \neq f(X) \\ 0, & Y = f(X) \end{cases}$
式中 $f (X)$ 是分类决策函数。这时，期望风险函数为
$R_{exp}(f)=E[L(Y,f(X))]$
期望是对联合分布 $P (X, Y)$ 取的。由此取条件期望
$R_{exp}(f)=E_X\sum_{k=1}^K[L(c_k,f(X))]P(c_k|X)$
为了使期望风险最小化，只需对 $X = x$ 逐个极小化，由此得到：
$\space min_{y\in \gamma}\sum_{k=1}^KL(c_k,y)P(c_k|X=x) \\ =arg\space min_{y\in \gamma}\sum_{k=1}^KP(y\neq c_k|X=x) \\ =arg\space min_{y\in \gamma}(1-P(y=c_k|X=x)) \\ =arg\space max_{y\in \gamma}P(y=c_k|X=x)$
这样一来，根据期望风险最小化准则就得到了后验概率最大化准则：
$f(x)=arg\space max_{c_k}P(c_k|X=x)$
即朴素贝叶斯法所采用的原理。