机器学习之朴素贝叶斯

是朴啊朴

已于 2022-04-06 22:27:40 修改

阅读量958

点赞数

于 2022-04-06 22:27:28 首次发布

本文链接：https://blog.csdn.net/piaopu0120/article/details/124002134

版权

机器学习

朴素贝叶斯

先验概率 $P (Y)$ ：根据以往的经验和分析，在实验或采样前就能得到的概率Y。

后验概率 $P (Y ∣ X)$ ：指某件事Y已经发生，想要计算这件事发生的原因是某个因素X引起的概率，

条件概率 $P (X ∣ Y)$ ：在Y发生的情况下，X发生的概率。

朴素贝叶斯（Naive Bayes）是基于贝叶斯定理与特征条件独立假设（较强假设，朴素）的分类方法。是一种生成模型。

朴素贝叶斯法就是给定输入 $X$ ，想要求得后验概率 $P (Y ∣ X)$ ，这样就能把后验概率最大的那一类 $Y$ 作为预测值。

1、如何求后验概率呢？

根据贝叶斯公式 $P(Y=c_k|X=x)=\frac{P(X=x|Y=c_k)P(Y=c_k)}{\sum_{i}P(X=x|Y=c_i)P(Y=c_i)}$ ，这个公式里后验概率是已知的，条件概率是未知的。

推导：

$P(Y=c_k|X=x)=\frac{P(X=x|Y=c_k)P(Y=c_k)}{P(X=x)} （两个条件概率公式凑的）$

$P(Y=c_k|X=x)=\frac{P(X=x|Y=c_k)P(Y=c_k)}{\sum_{i}P(X=x|Y=c_i)P(Y=c_i)}（根据全概率公式）$

2、如何求条件概率呢？

首先直接计算 $P (X ∣ Y)$ 是不可能的。

如果输入空间X有1000维，每一维有至少2个取值，则样本的可能取值为 $2^{1000}$ ，这导致用来表示 $P(X^{(1) }=x^{(1)},..x^{(1000)}=X^{(1000)}|Y=c_k)$ 需要的参数（X取值组合）特别多也有 $2^{1000}$ 。

所以朴素贝叶斯法对条件概率分布做了条件独立性的假设，由于这个假设很强，所以“朴素”由此得名。

条件独立性假设： $P(X=x|Y=c_k)=P(X^{(1) }=x^{(1)},..x^{(1000)}=X^{(1000)}|Y=c_k)=\prod_{j=1}^n P(X^{(j) }=x^{(j)}|Y=c_k)$

3、继续推导

$P(Y=c_k|X=x)=\frac{P(Y=c_k)\prod_{j}P(X^{(j)}=x^{(j)}|Y=c_k)}{\sum_{i}P(Y=c_i)\prod_{j}P(X^{(j)}=x^{(j)}|Y=c_i)}（根据独立性推导）$

所以要预测输入 $X$ 的类别，就要使后验概率最大化，朴素贝叶斯分类器可以表示为：

$y=f(x)=argmax_{c_k}\frac{P(Y=c_k)\prod_{j}P(X^{(j)}=x^{(j)}|Y=c_k)}{\sum_{k}P(Y=c_k)\prod_{j}P(X^{(j)}=x^{(j)}|Y=c_k)}（后验概率最大化）$

由于分母对所有 $Y$ 的取值是相同的，所以只考虑分子：

$y=f(x)=argmax_{c_k}P(Y=c_k)\prod_{j}P(X^{(j)}=x^{(j)}|Y=c_k)$

补充：

常说朴素贝叶斯方法是典型的生成学习方法，训练数据学习联合概率分布 $P (X, Y)$ ，然后求得后验概率分布 $P (Y ∣ X)$ 。问题是我们这里哪里学习了联合概率分布呢？不是求的先验概率*条件概率，然后使后验概率最大化吗？

因为联合概率=先验概率*条件概率，即 $P (X, Y) = P (Y) * P (X ∣ Y)$ ，求的就是联合概率。

是朴啊朴

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
机器学习之朴素贝叶斯

朴素贝叶斯原理讲解
复制链接

扫一扫