统计学习方法笔记-朴素贝叶斯

最新推荐文章于 2022-10-15 21:41:00 发布

小人国的蜗牛

最新推荐文章于 2022-10-15 21:41:00 发布

阅读量380

点赞数

分类专栏：统计学习方法

本文链接：https://blog.csdn.net/qq_24699745/article/details/78013667

版权

统计学习方法专栏收录该内容

5 篇文章 1 订阅

订阅专栏

先验概率与后验概率

在说朴素贝叶斯之前，这里先提出两个概念先验概率和后验概率。先验概率基于之前历史数据或者主观经验得出的某一随机事件发生的概率 $P(A)$ 。而后验概率呢？这个时候如果发生了某个事件B，再考虑A发生的概率 $P(A|B)$ 就是后验概率。（个人理解如有错误，欢迎大神指正）

朴素贝叶斯的原理

朴素贝叶斯是对于每一个输入x，都求出其对应的后验概率最大的输出y。关于分类问题，朴素贝叶斯方法会将实例预测成后验概率最大的类。
这里假设损失函数如下:

L (Y, f (X)) = {1, 0, Y \neq f (X) Y = f (X)

$L(Y,f(X))=\begin{cases}1,& Y\neq f(X)\\ 0,& Y=f(X)\end{cases}$
此时期望风险函数可以表达如下：

Rexp(f)=E[L(Y,f(X))] $R_{exp}(f)=E[L(Y,f(X))]$

Rexp(f)=EX∑Kk=1[L(ck,f(X))]P(ck|X) $R_{exp}(f)=E_X\sum_{k=1}^K[L(c_k,f(X))]P(c_k|X)$
为了使期望达到最小，就要实现如下：

f (x) = a r g max c k P (c k | X = x)

$f(x)=arg\ \max_{c_k}P(c_k|X=x)$
这就是朴素贝叶斯采用的原理。

朴素贝叶斯方法

朴素贝叶斯法实际学习过程中会学习到生成数据的机制，所以这是一种生成模型。这里提到的朴素贝叶斯法只能处理输入输出都为有限离散的数据，而且它还有一个假设，就是特征向量的任意两维间条件独立，如下所示:

P (X = x | Y = c k) = P (X (1) = x (1), \dots, X (n) = x (n) | Y = c k) = \prod j = 1 n P (X (j) = x (j) | Y = c k)

$\begin{align}P(X=x|Y=c_k)&=P(X^{(1)}=x^{(1)},\cdots,X^{(n)}=x^{(n)}|Y=c_k)\\ &=\prod_{j=1}^nP(X^{(j)}=x^{(j)}|Y=c_k) \end{align}$
该假设下后验概率计算如下：

P (c k | X = x) = P ( x | c k ) P ( c k ) \sum k P ( x | c k ) P ( c k ) = P ( c k ) \prod j P ( x ( j ) | c k ) \sum k P ( c k ) \prod j P ( x ( j ) | c k ), k = 1, 2, 3, \dots, K

$\begin{align}P(c_k|X=x)&=\frac{P(x|c_k)P(c_k)}{\sum_kP(x|c_k)P(c_k)}\\ &=\frac{P(c_k)\prod_jP(x^{(j)}|c_k)}{\sum_kP(c_k)\prod_jP(x^{(j)}|c_k)},k=1,2,3,\cdots,K\\ \end{align}$

y = f (x) = a r g max c k P (c k | x)

$y=f(x)=arg\max_{c_k}P(c_k|x)$
由于对于每一个

ck $c_k$ 的概率的分母都是一样的，所以上面的式子可以变为：

y = a r g max c k P (c k) \prod j P (x (j) | c k)

$y=arg\max_{c_k}P(c_k)\prod_jP(x^{(j)}|c_k)$

朴素贝叶斯法中参数的估计

极大似然估计

极大似然估计很直观，计算如下：

P(ck)=∑Ni=1I(yi=ck)N $P(c_k)=\frac{\sum_{i=1}^NI(y_i=c_k)}{N}$

P(X(j)=ajl|Y=ck)=∑Ni=1I(x(j)i=ajl,yi=ck)∑Ni=1I(yi=ck) $P(X^{(j)}=a_{jl}|Y=c_k)=\frac{\sum_{i=1}^NI(x_i^{(j)}=a_{jl},y_i=c_k)}{\sum_{i=1}^NI(y_i=c_k)}$

贝叶斯估计

由于极大似然估计可能会出现求出来结果为0的情况，为了解决这一问题可以采用贝叶斯估计，具体如下：
假设 $a_{jl}$ 可能有 $S_j$ 个可能值，那么：

Pλ(X(j)=ajl|Y=ck)=∑Ni=1I(x(j)i=ajl,yi=ck)+λ∑Ni=1I(yi=ck)+Sjλ $P_\lambda(X^{(j)}=a_{jl}|Y=c_k)=\frac{\sum_{i=1}^NI(x_i^{(j)}=a_{jl},y_i=c_k)+\lambda}{\sum_{i=1}^NI(y_i=c_k)+S_j\lambda}$
假设

ck $c_k$ 可能有

K $K$ 个可能值，那么：