基本方法:在统计资料的基础上,依据某些特征,计算各个类别的概率,从而实现分类
贝叶斯分类器的主要特点是:
属性可以离散,也可以连续;
数学基础扎实,分类效率稳定;
对缺失和噪声数据不太敏感;
属性如果不相关,分类效果很好,属性如果相关,则不低于决策树
P(Y)先验概率:根据以往的数据分析或者经验得到的概率
P(Y/X)后验概率:得到本事试验的信息从而重新修正的概率
贝叶斯定理:
P(A|B) = P(B|A) P(A) / P(B)
朴素贝叶斯:
朴素:特征条件独立;贝叶斯:基于贝叶斯定理,监督学习。
假设某个体有n项特征(Feature),分别为F1、F2、…、Fn。现有m个类别(Category),分别为C1、C2、…、Cm。贝叶斯分类器就是计算出概率最大的那个分类,也就是求下面这个算式的最大值:
P(C|F1F2…Fn) = P(F1F2…Fn|C)P(C)/ P(F1F2…Fn)
P(F1F2…Fn) 对于所有的类别都是相同的,可以省略,问题就变成了求分子的最大值:
P(F1F2…Fn|C)P(C)
朴素贝叶斯的所有特征都彼此独立,公式可以进一步写成:
P(F1F2…Fn|C)P© = P(F1|C)P(F2|C) … P(Fn|C)P(C)
上式等号右边的每一项,都可以从统计资料中得到,找到类别概率最大的分类。
在scikit中有多种不同的朴素贝叶斯分类器,区别在于假设了不同的P(X/y=Ck)分布:
高斯模型:假设特征的条件概率分布满足高斯分布。处理特征是连续型变量的情况
多项式模型:假设特征条件的概率分布满足多项式分布。最常见,要求特征是离散数据
伯努利模型:假设特征满足二项分布要求特征是离散的,每个特征只能取0或1.true or false.