概率论与数理统计中的贝叶斯:
假设在二维的离散场景下,存在一组相互独立的变量X,Y
这种情形非常好理解,毕竟
拿掉相互独立的假设,公式就会停留在这个阶段,因为此时XY的关系无从获取
在假定XY不独立的情况下,构建一个函数Z(初次使用公式编辑器,暂且用python三目表达式)
,这是常规均值写法
贝叶斯条件概率求均值转化为
朴素贝叶斯分类器的分类结果也是这样来表示的,同样假设一个二维场景,不过这个场景中增加了各个维度的互相独立的条件,以及X,Y是离散的变量
L为该朴素贝叶斯分类器的损失函数,要使分类器最准确,即需要损失函数达到最小
(1)
朴素贝叶斯分类器最终目的在于输入一个给定的vec(X),能够准确的给出样本X所属的类别Y
所有分类器模型的训练,都是要跟着损失函数的梯度走的,目的就是做到交叉熵损失最低,遵循这个定理,在求均值的时候,可以将问题简化为先求给定X的情况下单个维度Y的均值,再求二维情况下的
对任意,求
(2)
到这一步,看似贝叶斯分类器的流量密码已经被牢牢掌握,但当我们遇到一个训练集时,不对劲的事情就发生了
此训练集取自《统计学习方法》P63:
1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 | 13 | 14 | 15 | |
X1 | 1 | 1 | 1 | 1 | 1 | 2 | 2 | 2 | 2 | 2 | 3 | 3 | 3 | 3 | 3 |
X2 | S | M | M | S | S | S | M | M | L | L | L | M | M | L | L |
Y | -1 | -1 | 1 | 1 | -1 | -1 | -1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | -1 |
假设我现在已经拿到了一个经过这批training data的贝叶斯分类器,然后准备预测X1=1,X2=L这个对象的类别,直接套公式是行不通的,因此需要对(2)的结果进行一个转换
(3)
最后一行公式的分母乍一看非常奇怪,但也就是贝叶斯的惯用写法
表示在Y(i)=y(i)时,X取x的概率,也就是P(X)
在(3)的公式里,由于分母在给定了X的情况下都是相等的,进一步可以简化为
(4)
X中各个维度的x(i)是独立的,(4)可以转化为
贝叶斯分类器的原理阐述至此,统计出身想学AI的菜鸡请大家多多指教