朴素贝叶斯分类,是众多贝叶斯分类算法里最为简单、最为常见的算法之一。其本质属于生成式模型。
其解决的分类问题,数学定义为:
已知类别集合、特征集合,寻找分类器,,有且仅有一个满足。
对于,朴素贝叶斯算法的核心在于求取。由贝叶斯公式得:
(其中,为先验概率,表示在训练前预先估计特征的初始概率,一般由样本中出现的频率近似或历史经验得到,本身独立于样本;为后验概率,反映了得到样本后成立的置信度,一般是模型需要求取的。)
求出所有的后验概率后,朴素贝叶斯算法对其比较,选出后验概率最大的,将样本归为其对应的类别。
如何训练分类器?
考虑到朴素贝叶斯算法假设类别间互相独立,设,且,,则将原式重写为:
。
为了最大化后验概率,只需要保证分子最大(视作常数,忽略)即可。即最大化
对于,它是基于训练集得到的类先验概率,设为训练集D中第c类样本组合的集合,则
对于,分两种情况:
离散的,令表示中在第 i 个属性上取值为的样 本组成的集合,则;
连续的,考虑使用概率密度函数。设,则