1、朴素贝叶斯法是基于贝叶斯定理与特征条件独立假设的分类方法。
- 贝叶斯定理:见浙江大学《概率论与数理统计》P18式子(5.7)
- 特征条件独立:在数据集中通常称为特征;特征条件独立就可以理解为数据集的特征A和特征B没有关系,可以参考下该链接 https://zhuanlan.zhihu.com/p/58593725
2、每个样本是n维向量即n个特征;训练数据集T是N个样本,n和N不一定相等;这里的n和N是不一样的不要混淆;输出空间为K种可能性,即样本空间的划分,见参考《概率论与数理统计》P17下,可以理解为K分类问题;将训练数据集写成矩阵更生动形象些;
3、先验概率分布参考《概率论与数理统计》P20;
4、式子(4.3)是特征条件独立推导的结果,即在已知类别为Ck的情况下,n个特征相互独立;发生的概率可以采用连乘进行标示;
5、式子(4.4)即贝叶斯公式的写法,然后将(4.3)带入(4.4)得到式子(4.5);
6、式子(4.4)写得具有一定的迷惑性,按照下面图片的写法更能和贝叶斯公式对应起来;
7、式子(4.6)分母为定值,所以只需求解分子的最大值即可;