朴素贝叶斯分类器_2.请给出朴素贝叶斯分类器的公式-CSDN博客

本文链接：https://blog.csdn.net/weixin_41258571/article/details/79383715

贝叶斯决策论是通过相关的概率已知的情况下利用损失来选择最优类别的分类器。本文章的主要知识如下：概率论基础，贝叶斯分类器，朴素贝叶斯。

概率论基础：P(A)=事件A发生的概率，P(B)=事件B发生的概率，P(AB)=事件AB同时发生的概率，P(A U B)=P(A)+P(B)-P(AB)，P(AB)=P(A|B).P(B)=P(B|A).P(A)；全概率公式P(A)=P(AS)=P(A(B1 U B2 U B3 U.......U Bn))=P(AB1)+P(AB2)+......+P(ABn)样本空间划分为n个各不相容的事件；贝叶斯定理P(A|B)=P(AB)/P(B)=P(B|A).P(A)/P(B)，其中P(A|B)叫作后验概率，P(A)叫作先验概率。

贝叶斯决策的损失函数：后验概率最大化=损失函数最小化，我们定义顺势函数为：L(Y,f(X))={1,Y=f(X);0,otherwise}

极大似然估计：P(Y=Ck)表达了样本空间中各类样本所占的比例，根据大数定理，当训练集中包含充足的独立同分布样本时，P(Y=Ck)可以通过各类的样本出现的频率来进行估计；然而，对于P(X=x | Y=Ck)是很难估计的，假设样本d个属性是二元值得，那么样本空间一共有2**d的可能取值，但是训练集中的样本数量是比较小的，未被观测到与出现概率为0通常是不同的。

假设P（x|c）具有确定的形式并且被参数向量唯一确定，则我们的任务是利用训练集估计参数Qc，将P（x|c）记为P（x|Qc）。令Dc表示训练集D第c类样本的集合，假设样本独立同分布，则参数Qc对于数据集Dc的似然是

　　连乘容易造成下溢，通常使用对数似然

　　注意。这种参数化的方法虽然能使类条件概率估计变得相对简单，但是估计结果的准确性严重依赖所假设的概率分布形式是否符合潜在的真实数据分布

对于P(Y=Ck),比较简单，通过极大似然估计我们很容易得到P(Y=Ck)为样本类别Ck出现的频率，即样本类别Ck出现的次数mk

除以样本总数m。

对于P(Y=Ck),比较简单，通过极大似然估计我们很容易得到P(Y=Ck)为样本类别Ck出现的频率，即样本类别Ck出现的次数mk除以样本总数m。

　　　　对于P(Xj=X(test)j|Y=Ck)(j=1,2,...n),这个取决于我们的先验条件：

　　　　a) 如果我们的Xj是离散的值，那么我们可以假设Xj符合多项式分布，这样得到P(Xj=X(test)j|Y=Ck) 是在样本类别Ck中，X(test)j出现的频率。即：

P (X j = X (t e s t) j | Y = C k) = m k j t e s t m k

　　　　其中mk为样本类别Ck出现的次数，而mkjtest为类别为Ck的样本中，第j维特征X(test)j出现的次数。

　　　　某些时候，可能某些类别在样本中没有出现，这样可能导致P(Xj=X(test)j|Y=Ck)为0，这样会影响后验的估计，为了解决这种情况，我们引入了拉普拉斯平滑，即此时有：

P (X j = X (t e s t) j | Y = C k) = m k j t e s t + λ m k + O j λ

　　　　其中λ 为一个大于0的常数，常常取为1。Oj为第j个特征的取值个数。

　　　　b)如果我们我们的Xj是非常稀疏的离散值，即各个特征出现概率很低，这时我们可以假设Xj符合伯努利分布，即特征Xj出现记为1，不出现记为0。即只要Xj出现即可，我们不关注Xj的次数。这样得到P(Xj=X(test)j|Y=Ck) 是在样本类别Ck中，X(test)j出现的频率。此时有：

P (X j = X (t e s t) j | Y = C k) = P (X j | Y = C k) X (t e s t) j + (1 - P (X j | Y = C k)) (1 - X (t e s t) j)

　　　　其中，X(test)j取值为0和1。

　　　　c)如果我们我们的Xj是连续值，我们通常取Xj的先验概率为正态分布，即在样本类别Ck中，Xj的值符合正态分布。这样P(Xj=X(test)j|Y=Ck)的概率分布是：

P (X j = X (t e s t) j | Y = C k) = 1 2 π σ 2 k - - - - \sqrt e x p (- ( X ( t e s t ) j - μ k ) 2 2 σ 2 k)

　　　　其中μk和σ2k是正态分布的期望和方差，可以通过极大似然估计求得。μk为在样本类别Ck中，所有Xj的平均值。σ2k为在样本类别Ck中，所有Xj的方差。对于一个连续的样本值，带入正态分布的公式，就可以求出概率分布了

朴素贝叶斯算法小结

　　　　朴素贝叶斯算法的主要原理基本已经做了总结，这里对朴素贝叶斯的优缺点做一个总结。

　　　　朴素贝叶斯的主要优点有：

　　　　1）朴素贝叶斯模型发源于古典数学理论，有稳定的分类效率。

　　　　2）对小规模的数据表现很好，能个处理多分类任务，适合增量式训练，尤其是数据量超出内存时，我们可以一批批的去增量训练。

　　　　3）对缺失数据不太敏感，算法也比较简单，常用于文本分类。

　　　　朴素贝叶斯的主要缺点有：　　　

　　　　1）理论上，朴素贝叶斯模型与其他分类方法相比具有最小的误差率。但是实际上并非总是如此，这是因为朴素贝叶斯模型给定输出类别的情况下,假设属性之间相互独立，这个假设在实际应用中往往是不成立的，在属性个数比较多或者属性之间相关性较大时，分类效果不好。而在属性相关性较小时，朴素贝叶斯性能最为良好。对于这一点，有半朴素贝叶斯之类的算法通过考虑部分关联性适度改进。

　　　　2）需要知道先验概率，且先验概率很多时候取决于假设，假设的模型可以有很多种，因此在某些时候会由于假设的先验模型的原因导致预测效果不佳。

　　　　3）由于我们是通过先验和数据来决定后验的概率从而决定分类，所以分类决策存在一定的错误率。

　　　　4）对输入数据的表达形式很敏感。