在做分类算法的时候,很多算法都不错,但是有时可能需要获取到分类结果的概率,这时候就可以用上贝叶斯了
贝叶斯决策理论:
贝叶斯理论假设所有的先验条件都是独立的,
根据独立性:
p(x1,......xn|y) = p(x1|y)*p(x2|y)*.............*p(xn|y)
上式对于离散数据可以用, 如果特征中有连续值,就不可以了,应为连续值得概率是0,导致最终的概率连乘导致为0.所以这里可以用概率密度函数来表示
这里可用高斯分布的概率密度函数:
贝叶斯有个缺, 就是有可能会出现训练集中没有的特征,导致这个特征的先验概率为0, 同样会导致最后的连乘为0. 解决方法就是对所有的概率使用拉普拉斯修正
p(x1|c1)= n1 / n
而拉普拉斯平滑就是将上式修改为:
p(x1|c1)= (n1 + 1) / (n + N)
p(x2|c1)= (n2 + 1) / (n + N)