朴素贝叶斯算法是真正的概率算法
前提是特征之间相互独立
基本原理:
朴素贝叶斯生成方法,也就是直接找出特征输出Y和特征X的联合分布 P(X,Y),然后用P(X|Y),然后用P(X|Y)=P(X,Y)/P(X)的得出。
统计学原理:
先验概率+数据=后验概率
条件概率公式:
在概率论中,我们可以证明,两个事件的联合概率等于这两个事件任意条件概率 * 这个条件事件本身的概率。
我们可以全概率公式:
当先验概率的和等于1时,可以得出贝叶斯的公式:
其中P(X|Y)被成为类的条件概率
P(Y)成为先验概率,即在Y时间发生之前,我们对X事件概率的一个判断
P(Y|X)被称为后验概率,即在Y事件发生之后,我们对X事件概率的重新估计
P(X|Y)/P(X)被成为可能性函数,也是一个调整因子,是得预估计概率更接近真实概率,所以条件概率可以理解为:后验概率=先验概率*调整因子
- 如果可能性函数>1,意味着先验概率被增强,事件Y 的发生的可能性变大;
- 如果可能性函数=1,意味着 X事件无助于判断事件Y 的可能性;
- 如果可能性函数<1,意味着先验概率被削弱,事件 Y可能性变小。
基于伯努利朴素贝叶斯的一个小栗子,是kaggle的一个犯罪案例,具体代码如下:https://nbviewer.jupyter.org/github/xiaotaiyang08/123/blob/master/kaggle案例.ipynb