一、朴素贝叶斯算法
1、什么是朴素贝叶斯算法
朴素贝叶斯算法是一种基于贝叶斯定理的简单而高效的分类算法,通常用于文本分类、垃圾邮件过滤、情感分析等任务。它被称为“朴素”,是因为它假设特征之间是相互独立的,即一个特征的出现与否不影响其他特征的出现,这一假设在实际情况中往往不完全成立,但在许多应用中,朴素贝叶斯算法依然表现良好。朴素贝叶斯(Naive Bayes)是一种基于贝叶斯定理和特征条件独立假设的分类方法。贝叶斯决策理论的核心思想是将决策问题建模为概率问题。它考虑决策者对决策结果的不确定性,并试图在所有可能的行动中找到一个能够最大化预期效用的行动。
例如,在已知p1(x,y)和p2(x,y)分别代表数据点(x,y)在类别1和类别2中实现的概率,若p1(x,y)>p2(x,y),则类别为1,反之为2.这反映了我们优先选择类别概率高的。这也是贝叶斯决策理论的关键思想——最高概率的决策。
2、什么是条件概率
已知独立事件A和B,在事件 B 发生的情况下,事件 A 发生的概率P(A|B)为
已知独立事件A和B,在事件 A 发生的情况下,事件 B 发生的概率P(B|A)为
P(A)是事件 A 发生的先验概率。
P(B) 是事件 B 发生的先验概率。
对P(AB)进行等量代换就可以得出贝叶斯定理公式:
3、什么是朴素贝叶斯分类器(先验概率、后验概率)
在分类任务中,朴素贝叶斯算法应用贝叶斯定理来计算一个样本属于某个类别的概率.步骤如下:
1、计算先验概率:计算每个类别的先验概率 P(X),即类别 X在训练数据中出现的频率。
2、计算似然概率:对于每个特征 Y,计算在类别 X下该特征出现的概率 (P(Y| X) 。
3、计算后验概率:对于一个待分类的样本 ( Y = {y1, y2, ..., yn} ),计算其属于每个类别的后验概率 ( P(X | Y) )。根据贝叶斯定理有:
由于 P(Y)对所有类别都是相同的,可以忽略,简化为: