朴素贝叶斯是基于贝叶斯定理与特征条件独立假设的分类方法。对于给定的训练数据集,首先基于条件独立假设学习输入/输出的联合概率分布;然后基于此模型,对于给定的输入x,利用贝叶斯定理求出后验概率最大的输出y。朴素贝叶斯法实现简单,学习与预测的效率都和高,是一种常用的方法。
什么是条件概率?
所谓"条件概率"(Conditional probability),就是指在事件B发生的情况下,事件A发生的概率,用P(A|B)来表示。
根据文氏图,可以看到在事件B发生的情况下,事件A发生的概率就是P(A∩B)除以P(B)。
即:P(A|B)=P(A∩B) / P(B),--> P(A∩B) = P(A|B)P(B),同理,P(A∩B) = P(B|A)P(A),所以,P(A|B)P(B) = P(B|A)P(A)
所以:P(A|B) = P(B|A)P(A) / P(B),这就是贝叶斯公式。
朴素贝叶斯原理
朴素贝叶斯法通过训练数据集学习联合概率分布P(X,Y)。首先学习先验概率分布及条件概率分布,然后相乘得到联合概率分布。
先验概率分布:
条件概率分布:
这里 表示特征向量,