“咱们在大街上走,看到一个黑人,那在心理不由自主的会想到,这位友人大概率来自非洲”
所以,为什么我们会立刻有这种想法呢?
因为在之前我们的大脑中就已经学习过了这个事件。
毫无疑问,人们生活的本能就是贝叶斯。很容易理解吧。
贝叶斯:
用先验经验,学习得到后验经验,知道某个类别属于某种分布然后反推,如果属于这种分布,那大概率是这个类别
条件概率公式:
全概率公式:
贝叶斯定理:
其中,p(A)表示先验,是统计量或者只是假设偏好;p(B|A)是似然函数,是在条件A下的 B出现的概率;p(A|B)是后验概率,表示B的出现是因为A的概率,∫A′p(B|A′)P(A′)dA′为证据因子,对条件概率的积分表示将所有的事件发生的条件都考虑在内,这句话转自------清华计算机学堂
或许这样更容易理解一点
贝叶斯中如下三种:
1.GaussianNB适用特征为高斯分布的连续量。特征数据符合高斯正态分布
2.MultinomialNB适用特征为2个以上离散量。特征数据符合多项式分布
3.BernoulliNB适用特征只有2个状态,特征数据符合伯努利分布
这期主要讲GaussianNB():
高斯分布也称为正态分布,是描述自然界中连续随机变量的统计分布的统计模型。 正态分布中两个最重要的特征是均值 (μ) 和标准差 (σ)。平均值是分布的平均值,标准差是分布在平均值周围的“宽度”。
正态分布的概率密度函数
解释一下就大概是这样
好的,知道了原理以及工式,我们写一个GaussianNB类(代码注释均已标出),这样更加便于理解:
还是用鸢尾花作为数据集:
看看准确率:
结果为: