朴素贝叶斯算法 --- Naive Bayes

最新推荐文章于 2023-01-24 15:54:09 发布

Alex__Hu

最新推荐文章于 2023-01-24 15:54:09 发布

阅读量249

点赞数

分类专栏： Machine Learning 文章标签：朴素贝叶斯 Navie Bayes

本文链接：https://blog.csdn.net/m0_37204267/article/details/81207520

版权

Machine Learning 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

本文详细介绍了朴素贝叶斯算法，包括数据符号、条件独立性假设、推理方法（联合概率分布、后验概率）、学习过程中的参数估计（极大似然估计与平滑处理），以及算法在统计决策理论和概率图模型中的应用。

摘要由CSDN通过智能技术生成

朴素贝叶斯算法 — Naive Bayes

作者：Alex Hu
博客：https://blog.csdn.net/m0_37204267
转载请注明作者和出处。

朴素贝叶斯算法 — Naive Bayes

1. 数据符号

设输入空间 $\mathcal{X} \subseteq \mathbb{R}^p$ 为 $p$ 维的向量集合，输出空间为类标集合 $\mathcal{Y} = \{c_1, c_2, ..., c_k\}$ 。输入特征向量 $x \in \mathcal{X}, x=(x^1, x^2, ..., x^p)$ ，输出为类标 $y \in \mathcal{Y}$ 。 $X$ 是定义在输入空间 $\mathcal{X}$ 上的随机向量， $Y$ 是定义在输出空间 $\mathcal{Y}$ 上的随机向量。 $P(X, Y)$ 是 $X$ 和 $Y$ 的联合概率分布。训练数据集为

T = {(x 1, y 1), (x 2, y 2), . . ., (x N, y N)}

$T=\{(x_1, y_1), (x_2, y_2), ..., (x_N, y_N)\}$ 由

P(X,Y) P ( X , Y ) $P(X, Y)$ 独立同分布产生。

2. 表示 — 条件独立性假设

朴素贝叶斯算法是基于贝叶斯定理与特征条件独立假设的分类算法。

该算法成立需要很强的条件独立性假设：在给定样本类别的情况下，样本的各个特征之间是独立的。 这种假设在实际中很难成立，通常情况下各个特征之间是有联系的。但是这种假设会使得计算变得简单，在一些应用（如文本分类）中取得了不错的效果。这种假设因为把特征间的联系给去掉了，想要取得更高的分类性能就比较困难。

若没有条件独立性假设，条件概率分布 $P(X=x|Y=c_k)$ 有指数级数量的参数，要进行参数估计是不可行的。假设 $x^j$ 可能的取值有 $S_j$ 个， $j = 1, 2, ..., m$ , $Y$ 可取值有 $K$ 个，那么参数个数为 $K\prod _{j=1}^mS_j$ 。

朴素贝叶斯方法对条件概率分布作了条件独立性假设。具体的，条件独立性假设是

P (X = x | Y = c k) = P (X 1 = x 1, X 2 = x 2, . . ., X p = x p | Y = c k) = \prod j = 1 p P (X j = x j | Y = c k) (1)

$P(X=x|Y=c_k) = P(X^1=x^1, X^2=x^2,...,X^p=x^p|Y=c_k) =\prod_{j=1}^pP(X^j=x^j | Y=c_k) \tag{1}$ 需要的参数的个数为 $K(S_j-1)p$ ，数量远小于上述参数。

3. 推理 — 基本方法

3.1 求联合概率分布

朴素贝叶斯算法通过训练数据集学习联合概率分布 $P(X, Y)$ 。具体方法是：通过先验概率分布 $P(Y=c_k)$ 和条件概率分布 $P(X=x| Y=c_k) = P(X^1=x^1, X^2=x^2,...,X^p=x^p|Y=c_k)$ 学习到联合概率分布 $P(X, Y)$ 。

3.2 求后验概率

根据贝叶斯定理，对给定的输入 $x$ ，通过学习的模型求得后验概率分布 $P(Y=c_k|X=x)$ , 将后验概率最大的类作为 $x$ 的类输出。

\begin{matrix} (2) & P (Y = c_{k} | X = x) = \frac{P (X = x | Y = c_{k}) P (Y = c_{k})}{\sum_{k} P (X = x | Y = c_{k}) P (Y = c_{k})} \end{matrix}

$P(Y=c_k|X=x)=\frac{P(X=x|Y=c_k)P(Y=c_k)}{\sum_k P(X=x|Y=c_k)P(Y=c_k) } \tag{2}$
将公式(1)带入公式(2)得到

P (Y = c k | X = x) = P ( Y = c k ) \prod p j = 1 P ( X j = x j | Y = c k ) \sum k P ( Y = c k ) \prod p j = 1 P ( X j = x j | Y = c k ) (3)

$P(Y=c_k|X=x)=\frac{P(Y=c_k)\prod_{j=1}^pP(X^j=x^j | Y=c_k)}{\sum_k P(Y=c_k)\prod_{j=1}^pP(X^j=x^j | Y=c_k)} \tag{3}$

3.3 朴素贝叶斯分类器

公式(3)是朴素贝叶斯分类的基本公式。于是，朴素贝叶斯分类器可以表示为

y = f (x) = arg max c k P ( Y = c k ) \prod p j = 1 P ( X j = x j | Y = c k ) \sum k P ( Y = c k ) \prod p j = 1 P ( X j = x j | Y = c k ) (4)

$y = f(x)= \mathop{\arg\max_{c_k}}\frac{P(Y=c_k)\prod_{j=1}^pP(X^j=x^j | Y=c_k)}{\sum_k P(Y=c_k)\prod_{j=1}^pP(X^j=x^j | Y=c_k)} \tag{4}$
注意到公式(4)中分母对所有

ck c k $c_k$ 都是相同的，所以，

y = f (x) = arg max c k P (Y = c k) \prod j = 1 p P (X j = x j | Y = c k) (5)

$y = f(x)= \mathop{\arg\max_{c_k}} P(Y=c_k) \prod_{j=1}^pP(X^j=x^j | Y=c_k) \tag{5}$

4 学习 — 参数估计

4.1 极大似然估计

从公式(5)中看出需要估计的参数有 $P(Y=c_k)$ 和 $P(X^j=x^j | Y=c_k )$ 。可以应用极大似然估计从原始的训练数据集中做简单统计，可以得到

P (Y = c k) = \sum N i = 1 I ( y i = c k ) N k = 1, 2, . . ., K (先 验 概 率)

$P(Y=c_k) = \frac{\sum_{i=1}^N I(y_i = c_k)}{N} \quad k=1,2,...,K \tag{先验概率}$

P (X j = a j l | Y = c k) = \sum N i = 1 I ( X j i = a j l , y i = c k ) \sum N i = 1 I ( y i = c k ) i = 1, 2, . . ., N; l = 1, 2, . . ., S j; k = 1, 2, . . . K (似 然 概 率)

$P(X^j = a_{jl} | Y=c_k) = \frac{\sum_{i=1}^N I(X_i^j=a_{jl}, y_i = c_k)} {\sum_{i=1}^N I(y_i = c_k)} \tag{似然概率} \\ i= 1,2,...,N; l=1,2,...,S_j; k=1,2,...K$
其中

I(⋅) I ( · ) $I(·)$ 是指示函数，

xji x i j $x_i^j$ 表示第

i i $i$ 个样本的第

j

$j$ 个特征值。

4.2 贝叶斯估计 — 平滑处理

因为训练数据集数量很少，若出现某个类别或特征值未出现的情况，用极大似然估计的过程中，这些量的概率就为0，会影响后验概率的计算，使分类产生偏差。解决的方法是采用贝叶斯估计：

P (Y = c k) = \sum N i = 1 I ( y i = c k ) + λ N + K λ

$P(Y=c_k) = \frac{\sum_{i=1}^N I(y_i = c_k)+\lambda}{N+K\lambda}$

P λ (X j = a j l | Y = c k) = \sum N i = 1 I ( X j i = a j l , y i = c k ) + λ \sum N i = 1 I ( y i = c k ) + S j λ

$P_{\lambda}(X^j = a_{jl} | Y=c_k) = \frac{\sum_{i=1}^N I(X_i^j=a_{jl}, y_i = c_k )+ \lambda} {\sum_{i=1}^N I(y_i = c_k)+ S_j\lambda}$
其中

λ>0 λ > 0 $\lambda > 0$ 。当

λ=0 λ = 0 $\lambda=0$ 是就是最大似然估计，当

λ=1 λ = 1 $\lambda=1$ 时称为拉普拉斯平滑。

个人理解，这里的 $\lambda$ 可以当作各个量的的先验知识。

5 统计决策理论 — 后验概率最大化

后 验 概 率 最 大 ⟺ 期 望 风 险 最 小 化

$\Large \textbf{ 后验概率最大} \Longleftrightarrow \textbf{期望风险最小化 }$
假设选择0-1损失函数：

L (Y, f (X)) = {01 Y \neq f (X) Y = f (X)

$L(Y, f(X)) = \begin{cases} 0 & Y \neq f(X) \\ 1 & Y = f(X) \end{cases}$
其中

f(X) f ( X ) $f(X)$ 是分类决策函数。这时，期望风险函数为

R e x p (f) = E [L (Y, f (X))] = \int X \times Y L (y, f (x)) P (x, y) d x d y = \int X \times Y L (y, f (x)) P (x, y) d x d y = \int X [\int Y L (y, f (x)) P (y | x) d y] P (x) d x = \int X E [Y | X = x] P (x) d x

$\begin{align*} R_{exp}(f) = E[L(Y, f(X))] & =\int_{\mathcal{X}\times\mathcal{Y}}L(y, f(x))P(x, y)dxdy \\ & = \int_{\mathcal{X}\times\mathcal{Y}}L(y, f(x))P(x, y)dxdy \\ & = \int_{\mathcal{X}} \ [\int_{\mathcal{Y}}L(y, f(x))P(y|x)dy] \ P(x)dx \\ & = \int_{\mathcal{X}} E[Y|X=x] P(x)dx \end{align*}$
原始的期望是对联合概率分布

P(X,Y) P ( X , Y ) $P(X, Y)$ 取得，经过转换后只考虑取得条件期望：

R e x p (f) = E X [\sum k = 1 K L (c k, f (X)) P (c k | X)]

$R_{exp}(f)=E_X[\sum_{k=1}^{K}L(c_k, f(X))P(c_k|X)]$
为了使期望风险最小化，只要对

X=x X = x $X=x$ 逐个极小化，由此得到：

f (x) = arg min y \in Y \sum k = 1 K L (c k, y) P (c k | X = x) = arg min y \in Y \sum k = 1 K P (y \neq c k | X = x) = arg min y \in Y (1 - P (y = c k | X = x)) = arg max y \in Y P (y = c k | X = x)

$\begin{align*} f(x) & = \mathop{\arg \min_{y \in \mathcal{Y}}} \sum_{k=1}^K L(c_k, y)P(c_k|X=x) \\ & = \mathop{\arg \min_{y \in \mathcal{Y}}} \sum_{k=1}^K P(y \neq c_k| X = x) \\ & = \mathop{\arg \min_{y \in \mathcal{Y}}} (1-P(y=c_k|X=x))\\ & = \mathop{\arg \max_{y \in \mathcal{Y}}} P(y=c_k|X=x) \end{align*}$
这样一来，根据期望风险最小化准则就得到了后验概率最大化准则：