朴素贝叶斯分类器是经典的机器学习算法之一,它是一种基于概率论的分类算法。它的基本思想就是基于概率和误判损失来选择最优的类别标记,常用于垃圾邮件过滤等。
它做出了如下假设:决策问题可以用概率的形式来描述,并且假设所有有关的概率结构均已知。
1、贝叶斯公式
贝叶斯公式是朴素贝叶斯分类器的基础,该公式中最重要的两个因素是先验概率和后验概率,首先来介绍一下先验概率和后验概率的概念:
- 先验概率:是指根据以往经验和分析得到的概率;
- 后验概率:事情已经发生,要求这件事情发生的原因是由某个因素引起的可能性的大小;
贝叶斯公式为:
P ( c ∣ x ) = P ( c ) P ( x ∣ c ) P ( x ) P(c|x) = \frac{P(c)P(x|c)}{P(x)} P(c∣x)=P(x)P(c)P(x∣c)
其中, P ( c ∣ x ) P(c|x) P(c∣x) 是后验概率; P ( c ) P(c) P(c) 是类“先验”(prior)概率,表达了样本空间中各种样本所占的比例; P ( x ∣ c ) P(x|c) P(x∣c) 是样本 x x x 相对于类标记 c c c 的类条件概率(class-conditional probability),或称为“似然”(likelihood); P ( x ) P(x) P(x) 是用于归一化的“证据”(evidence)因子。
用英语表示为:
p o s t e r i o r = p r i o r × l i k e l i h o o d e v i d e n c e posterior = \frac{prior \times likelihood}{evidence} posterior=evidenceprior×likelihood
2、朴素贝叶斯分类器
基于贝叶斯公式来估计后验概率 P ( c ∣ x ) P(c|x) P(c∣x) 的主要困难在于:类条件概率 P ( x ∣ c ) P(x|c) P(x∣c) 是所有属性上的联合概率,难以从有限的训练样本直接估计得到。为了避开这个难点,朴素贝叶斯分类器采用了“属性条件独立性假设”:对已知类别,假设所有属性相互独立,也就是说,假设每个属性独立地对分类结果产生影响。
基于属于条件独立性假设,贝叶斯公式可重写为:
P ( c ∣ x ) = P ( c ) P ( x ∣