想想贝叶斯会怎么做

最新推荐文章于 2024-10-02 21:43:07 发布

牛油果呀榴莲

最新推荐文章于 2024-10-02 21:43:07 发布

阅读量249

点赞数

文章标签：概率论机器学习

本文链接：https://blog.csdn.net/qq_55880740/article/details/126583803

版权

概率论与数理统计中的贝叶斯：

假设在二维的离散场景下，存在一组相互独立的变量X，Y

$P\left ( Y/X \right )=P(X,Y)/P(X)=P(Y)$

这种情形非常好理解，毕竟 $P(X,Y)=P(X)P(Y)$

拿掉相互独立的假设，公式就会停留在 $P\left ( Y/X \right )=P(X,Y)/P(X)$ 这个阶段，因为此时XY的关系无从获取

在假定XY不独立的情况下，构建一个函数Z(初次使用公式编辑器,暂且用python三目表达式)

$Z=1\; if\; X\neq Y\; else\; 0$

$E\left ( Z \right )= X\cdot Y\cdot P(X,Y)$ ，这是常规均值写法

贝叶斯条件概率求均值转化为 $E\left ( Z \right )=\int\int Z\cdot P(X,Y)dxdy= \int \int Z\cdot P(Y|X)\cdot P(X)dydx$

朴素贝叶斯分类器的分类结果也是这样来表示的，同样假设一个二维场景，不过这个场景中增加了各个维度的 $X_{i}$ 互相独立的条件，以及X，Y是离散的变量

$L[Y,f(X)]=\: 1\: if\: Y\neq f(X)\: else\: 0$

L为该朴素贝叶斯分类器的损失函数，要使分类器最准确，即需要损失函数 $E\left ( L \right )$ 达到最小

$E\left ( L \right )=\sum_{x}^{}\sum_{y}^{}L\cdot P(X,Y)= \sum_{x}^{}\sum_{y}^{}L\cdot P(Y|X)\cdot P(X)$ (1)

朴素贝叶斯分类器最终目的在于输入一个给定的vec(X)，能够准确的给出样本X所属的类别Y

所有分类器模型的训练，都是要跟着损失函数的梯度走的，目的就是做到交叉熵损失最低，遵循这个定理，在求均值 $E(L)$ 的时候，可以将问题简化为先求给定X的情况下单个维度Y的均值，再求二维情况下的 $E(L)$

对任意 $x\: \epsilon\: X$ ，求

$min\sum_{y}^{}P(Y|X)\cdot [L(Y,f(X))]$ （2）

$=min\sum_{y}^{}P(Y\neq y|X)=max\: P(Y= y|X=x)$

$y=arg \: max\: P(Y= y|X=x)$

到这一步，看似贝叶斯分类器的流量密码已经被牢牢掌握，但当我们遇到一个训练集时，不对劲的事情就发生了

此训练集取自《统计学习方法》P63：

假设我现在已经拿到了一个经过这批training data的贝叶斯分类器，然后准备预测X1=1,X2=L这个对象的类别，直接套公式是行不通的，因此需要对（2）的结果进行一个转换

$arg\: max\: P(Y= y|X=x)=arg\: max P(Y=y,X=x)/P(X=x)=arg\: max\: P(X=x|Y=y)\cdot P(Y=y)/[\sum_{y}^{}P(X=x|Y=y)/P(Y=y)]$ （3）

最后一行公式的分母乍一看非常奇怪，但也就是贝叶斯的惯用写法

$[\sum_{y}^{}P(X=x|Y=y)/P(Y=y)]$ 表示在Y(i)=y(i)时，X取x的概率，也就是P(X)

在（3）的公式里，由于分母在给定了X的情况下都是相等的，进一步可以简化为

$y=arg\: max\: P(X=x|Y=y)/P(Y=y)$ (4)

X中各个维度的x(i)是独立的，(4)可以转化为

$y=arg\: max\: \prod_{i}^{}P(X=x(i))|Y=y)/P(Y=y)$

贝叶斯分类器的原理阐述至此，统计出身想学AI的菜鸡请大家多多指教

关注