贝叶斯分类器
1.原理
先验概率:某个事件B发生的概率P(B)
条件(后验)概率:事件B在另一事件A已发生条件下的发生概率P(B|A)
联合概率:两个事件共同发生的概率P(A, B)=P(B, A)
2.多个离散属性的条件概率
样本x是n维的特征向量, Ci是第i个类别的标签,条件独立性假设: x向量的不同属性间是条件独立的。
x 属于类别 Ci 的概率P(Ci│x)=P(x|Ci)P(Ci)/P(x)
各个属性概率的组合:
3.贝叶斯分类器算法
4.改进
5.连续属性
(1)离散化连续属性
1.替换为布尔属性 2.将连续属性域分为多区间
(2)连续属性
(3)概率密度函数
6.特点
优点:
简单稳定,训练和预测速度快,易理解
在高维稀疏数据上效果很好
概率信息完整时,可给出最佳分类准确率
缺点:
独立性假设经常不成立