一、简介
1.1、贝叶斯定理
朴素贝叶斯(Naive Bayesian algorithm)是有监督学习的一种分类算法,它基于“贝叶斯定理”实现,该原理的提出人是英国著名数学家托马斯·贝叶斯。贝叶斯定理是基于概率论和统计学的相关知识实现的,因此在正式学习“朴素贝叶斯算法”前,我们有必要先认识“贝叶斯定理”。
贝叶斯定理是概率统计中的应用所观察到的现象对有关概率分布的主观判断(先验概率)进行修正的标准方法。依靠与事物特定本质相关的事件出现的多少去判断其本质属性的概率。用数学语言表达就是:支持某项属性的事件发生得愈多,则该属性成立的可能性就愈大。
1.2、朴素贝叶斯
朴素贝叶斯是一种基于贝叶斯定理和特征独立性假设的分类算法。对分类任务来说,在所有相关概率都已知的理想情形下,贝叶斯决策论考虑如何基于这些概率和误判损失来选择最优的类别标记。在实际应用中,它表现出了很高的分类效率和准确性,常用于文本分类、垃圾邮件过滤、情感分析等问题。
二、朴素贝叶斯算法原理
2.1、条件概率和贝叶斯公式
先验概率:即基于统计的概率,在没有任何其他信息的情况下,某个类别或事件发生的概率,是基于以往历史经验和分析得到的结果,不需要依赖当前发生的条件。在贝叶斯分类器中,通常通过统计训练数据集中各类别的出现频率来估计。
后验概率:在贝叶斯统计中,后验概率是在考虑新信息之后事件发生的修正或更新概率。 后验概率通过使用贝叶斯定理更新先验概率来计算。 用统计术语来说,后验概率是假设事件B已经发生的情况下事件A发生的概率。
条件概率:记事件A发生的概率为P(A),事件B发生的概率为P(B),则在B事件发生的前提下,A事件发生的概率即为条件概率,记为P(B|A)
贝叶斯公式:是概率论中的一个基本定理,描述了在已知先验概率的情况下,如何更新我们对事件的概率。贝叶斯公式便是基于条件概率,通过P(B|A)来求P(A|B),如下:
2.2、朴素贝叶斯公式
朴素贝叶斯分类器的原理基于贝叶斯定理,即根据已知类别的数据来估计特征与类别之间的概率分布,然后使用这些概率来对新样本进行分类。
朴素贝叶斯算法是假设各个特征之间相互独立,也是朴素这词的意思。那么贝叶斯公式中P(X|Y)可写成
具体地,设特征向量为