基本的朴素贝叶斯方法:
假设我们面对的是一个分类问题,一个样本点的特征向量和类别标签为:
我们期望在知道x的情况下得到y=cj的概率,即:
如果我们想要具体的知道这个样本属于哪一类别的概率最大,即需要求解最大的后验概率:
先验概率为:
条件概率为:
朴素贝叶斯方法做了条件独立性假设,于是可以有:
以上的条件独立假设等于说是用于分类的特征在确定的条件下都是条件独立的,那么现在再来看后验概率:
我们要求的最大后验概率如上所示,由于对于所属的每一类来说,分母项都是不变的,所以
朴素贝叶斯方法的目标函数的含义(另一种解释):
我们期望的是分类的准确度尽可能的高,即期望风险最小话,所以损失函数选择0-1函数:
期望风险函数为:
所以优化函数为:
所以后验概率最大化准则为:
现在有了最大后验概率准则之后,可以对给定样本进行类别判断:
后验概率 正比于 先验概率* 似然函数
那么这时候需要估计先验概率和似然函数:
1. 最大似然估计
其中ajl表示的是特征的第j个维度的第l个可能取值。
2. 贝叶斯估计