1.什么是朴素贝叶斯
朴素贝叶斯是基于概率论的一种分类方法,即基于贝叶斯定理和假设"特征条件互相独立"(即"朴素"的含义)
贝叶斯公式如下:
这里B指分类,A指特征,即:
1.1先验概率:
根绝以往经验和分析得到的概率,如上面的P(B),P(A)
1.2 条件概率
条件概率是指在事件Y=y已经发生的条件下,事件X=x发生的概率,可以表述为:
(式1)
这里联合概率P(X=x,Y=y) = P(X=x)P(Y=y|X=x) 或者P(X=x,Y=y) = P(Y=y)P(X=x|Y=y) ,两者是等价的
1.3后验概率
实际也是为条件概率,以先验概率为基础,如上述第二个公式中
(式2)
p(类别|特征)为后验概率,p(类别),p(特征)为先验概率
后验概率可以根据通过贝叶斯公式,用先验概率和似然函数计算出来。如下所示
假设Y为性别,X表示是否爱看动漫(x1爱,x2不爱),则计算后验概率:爱看足球的男性,如下:
(式3)
如果要计算爱看足球的是女性的概率为:
(式4)
因此分母是相同的,我们在朴素贝叶斯中一般不需再计算分母,通过计算后验概率,可判断性别是男还是女。
1.4似然估计
"似然"和"概率"类似,都是表示某件事发生的可能性。
不同在于:“概率”用于在已知一些参数的情况下,预测接下来的观测所得到的的结果,而似然性是用于在已知某些观测所得到的的结果时,对有关事物的性质的参数进行估计。详细说明资料见:https://blog.csdn.net/songyu0120/article/details/85059149
最大似然估计:就是利用已知的样本结果信息,反推最有可能(最大概率)导致这些样本结果出现的模型参数值。假设抛了5次硬币,4次正面,1次反面,这时预测为正面的最大似然估计(根据当前样本的结果推出最合理的概率)为0.8,如果样本足够多,会得到值约等于0.5。例子详见https://www.applysquare.com/topic-cn/68qjIrKaf/
(式5)
从上式看出:
如果似然估计,那么表示A事件的发生提高了B事件发生的概率。
反之,如果<1,则说明A事件的发生降低了B事件发生的该率。
1.5拉普拉斯平滑
由于p(x|y) = 所有p(xi | y) 的乘积,如下
如果某个特征xi不存在,则会导致出现0概率,导致累乘的结果为0,比如在文本分类的问题中,当一个词语没有在训练样本中出现,该词语调概率为0,使用连乘计算文本出现概率时也为0。这是不合理的。
例子:
假设在文本分类中,有3个类,C1、C2、C3,在指定的训练样本中,某个词语K1,在各个类中观测计数分别为0,990,10,K1的概率为0,0.99,0.01,对这三个量使用拉普拉斯平滑的计算方法如下:
1/1003 = 0.001,991/1003=0.988,11/1003=0.011
详见:
https://www.ctolib.com/topics-110185.html
https://www.cnblogs.com/bqtang/p/3693827.html
Reference