统计学习知识点整理——朴素贝叶斯
朴素贝叶斯(naive Bayes)法是基于贝叶斯定理与特征条件独立假设的分类方法。实际上学习到的是数据生成的机制,所以属于生成模型。
在概率论与统计学中,贝叶斯定理 (Bayes' theorem) 表达了一个事件发生的概率,而确定这一概率的方法是基于与该事件相关的条件先验知识 (prior knowledge)。而利用相应先验知识进行概率推断的过程为贝叶斯推断 (Bayesian inference)。
贝叶斯定理
条件概率P(A|B)表示在B发生的条件下,A发生的概率。
所以
可得:
由此可以推出贝叶斯公式:
P(A|B)称为后验概率,即B发生的条件下A发生的概率。P(A)称为先验概率,即B发生之前对A事件概率的一个推断。
朴素贝叶斯法的基本假设是条件独立性。
条件独立性
如果P(X,Y|Z)=P(X|Z)P(Y|Z),或等价地P(X|Y,Z)=P(X|Z),则称事件X,Y对于给定事件Z是条件独立的,也就是说,当Z发生时,X发生与否与Y发生与否是无关的。
这是一个较强的假设,由于这一假设,模型包含的条件概率的数量大为减少,朴素贝叶斯学习和预测大为简化。
算法流程
朴素贝叶斯的优缺点
优点:
算法逻辑简单,易于实现
缺点:
由于条件独立性假设,而当不同特征之间存在较强相关性时,分类效果不好。而现实生活中,不同特征之间往往都会有相关性。