朴素贝叶斯模型Naive Bayes推导过程

从贝叶斯模型的训练到预测过程,手写推导计算公式,主要记录自用,也欢迎参考交流

训练过程:

预测过程:

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
朴素贝叶斯定理是一种基于贝叶斯定理的分类算法,其基本假设是特征之间相互独立。其推导过程如下: 假设有 $n$ 个样本,每个样本都有 $m$ 个特征,特征向量为 $\boldsymbol{x} = (x_1, x_2, ..., x_m)$,每个样本都属于 $k$ 个类别中的一个,类别向量为 $\boldsymbol{y} = (y_1, y_2, ..., y_k)$。根据贝叶斯定理,我们可以得到: $$P(\boldsymbol{y}|\boldsymbol{x}) = \frac{P(\boldsymbol{x}|\boldsymbol{y})P(\boldsymbol{y})}{P(\boldsymbol{x})}$$ 其中,$P(\boldsymbol{x}|\boldsymbol{y})$ 表示在已知类别 $\boldsymbol{y}$ 的情况下,特征向量 $\boldsymbol{x}$ 出现的概率;$P(\boldsymbol{y})$ 表示类别 $\boldsymbol{y}$ 出现的概率;$P(\boldsymbol{x})$ 表示特征向量 $\boldsymbol{x}$ 出现的概率。由于 $P(\boldsymbol{x})$ 是一个常数,我们可以忽略它,得到: $$P(\boldsymbol{y}|\boldsymbol{x}) \propto P(\boldsymbol{x}|\boldsymbol{y})P(\boldsymbol{y})$$ 朴素贝叶斯算法的基本假设是,特征之间相互独立,即: $$P(\boldsymbol{x}|\boldsymbol{y}) = \prod_{i=1}^m P(x_i|\boldsymbol{y})$$ 将其带入上式,得到: $$P(\boldsymbol{y}|\boldsymbol{x}) \propto P(\boldsymbol{y}) \prod_{i=1}^m P(x_i|\boldsymbol{y})$$ 这个式子就是朴素贝叶斯定理。为了进行分类,我们需要计算每个类别的后验概率 $P(\boldsymbol{y}|\boldsymbol{x})$,并选择具有最大概率的类别作为预测结果。具体地,我们需要计算以下两个概率: 1. 先验概率 $P(\boldsymbol{y})$,即每个类别出现的概率。 2. 条件概率 $P(x_i|\boldsymbol{y})$,即在已知类别 $\boldsymbol{y}$ 的情况下,第 $i$ 个特征 $x_i$ 出现的概率。 这些概率可以通过统计训练数据集中的频率来估计。具体地,对于每个类别,我们可以计算其出现的频率,即: $$P(\boldsymbol{y}) = \frac{\text{number of samples in } \boldsymbol{y}}{\text{total number of samples}}$$ 对于每个特征,我们可以计算在每个类别下该特征出现的频率,即: $$P(x_i|\boldsymbol{y}) = \frac{\text{number of samples in } \boldsymbol{y} \text{ with } x_i}{\text{number of samples in } \boldsymbol{y}}$$ 这些概率可以用于计算后验概率 $P(\boldsymbol{y}|\boldsymbol{x})$,从而进行分类。 下面给一个朴素贝叶斯分类的计算案例。假设有以下数据集: | 编号 | 颜色 | 直径 | 类别 | | --- | --- | --- | --- | | 1 | 红色 | 3cm | 苹果 | | 2 | 红色 | 4cm | 苹果 | | 3 | 红色 | 5cm | 橘子 | | 4 | 黄色 | 4cm | 橘子 | | 5 | 黄色 | 5cm | 柠檬 | 现在有一个新的水果,颜色为红色,直径为4.5cm,问它是什么水果。 首先需要计算每个类别的先验概率: $$P(\text{苹果}) = \frac{2}{5} = 0.4$$ $$P(\text{橘子}) = \frac{2}{5} = 0.4$$ $$P(\text{柠檬}) = \frac{1}{5} = 0.2$$ 然后需要计算每个特征在各个类别下的条件概率: $$P(\text{红色}|\text{苹果}) = \frac{2}{2} = 1$$ $$P(\text{红色}|\text{橘子}) = \frac{1}{2} = 0.5$$ $$P(\text{红色}|\text{柠檬}) = 0$$ $$P(\text{4.5cm}|\text{苹果}) = 0$$ $$P(\text{4.5cm}|\text{橘子}) = \frac{1}{2} = 0.5$$ $$P(\text{4.5cm}|\text{柠檬}) = \frac{1}{1} = 1$$ 由于特征之间相互独立,我们可以将它们的条件概率相乘,从而得到每个类别的后验概率: $$P(\text{苹果}|\text{红色},\text{4.5cm}) \propto P(\text{苹果})P(\text{红色}|\text{苹果})P(\text{4.5cm}|\text{苹果}) = 0$$ $$P(\text{橘子}|\text{红色},\text{4.5cm}) \propto P(\text{橘子})P(\text{红色}|\text{橘子})P(\text{4.5cm}|\text{橘子}) = 0.2$$ $$P(\text{柠檬}|\text{红色},\text{4.5cm}) \propto P(\text{柠檬})P(\text{红色}|\text{柠檬})P(\text{4.5cm}|\text{柠檬}) = 0.2$$ 因此,我们可以预测这个水果是橘子或柠檬,由于它更接近柠檬,因此最终的预测结果是柠檬。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值