机器学习朴素贝叶斯法（持续更新中）

最新推荐文章于 2022-07-21 19:04:14 发布

NoOne-csdn

最新推荐文章于 2022-07-21 19:04:14 发布

阅读量153

点赞数

分类专栏：机器学习 NaiveBayes

本文链接：https://blog.csdn.net/weixin_40161254/article/details/100010838

版权

机器学习同时被 2 个专栏收录

16 篇文章 0 订阅

订阅专栏

NaiveBayes

1 篇文章 0 订阅

订阅专栏

朴素贝叶斯（Naive Bayes）是基于贝叶斯定理与特征条件假设的分类方法。
属于监督学习的生产模型。
对于给定的训练数据集，首先基于特征条件独立假设学习输入/输出的联合分布；然后基于此模型，对给定的输入x，利用贝叶斯定理求出后验概率最大的输出y。
朴素贝叶斯实现简单，学习与预测的效率都很高，是一种常用的方法

特征条件独立假设

这一部分开始朴素贝叶斯的理论推导，从中你会深刻地理解什么是特征条件独立假设。
给定训练数据集(X,Y)其中每个样本X都包括n维特征，即 $x=\left(x_{1}, x_{2}, \cdots, x_{n}\right)$ ，类标记集合合含有K种类别，即 $x=\left(y_{1}, y_{2}, \cdots, x_{k}\right)$
如果现在来了一个新样本x我们要怎么判断它的类别?从概率的角度来看，这个问题就是给定x，它属于哪个类别的概率更大。那么问题就转化为求解 $P\left(y_{1} | x\right), P\left(y_{2} | x\right), P\left(y_{k} | x\right)$ 中最大的那个，即求后验概率最大的输出： $\arg \max _{y_{k}} P\left(y_{k} | x\right)$ 那 $P\left(y_{k} | x\right)$ 怎么求解？答案就是贝叶斯定理：
$P\left(y_{k} | x\right)=\frac{P\left(x | y_{k}\right) \cdot P\left(y_{k}\right)}{P(x)}$
根据全概率公式，可以进一步分解上式中的分母： $P\left(y_{k} | x\right)=\frac{P\left(x | y_{k}\right) \cdot P\left(y_{k}\right)}{\sum_{i=1}^{n} P\left(x | y_{k}\right) P\left(y_{k}\right)}$
条件概率 $P\left(x | y_{k}\right)=P\left(x_{1}, x_{2}, \cdots, x_{n} | y_{k}\right)$
它的参数规模是指数数量级别的，假设第 $i$ 维特征 $x_{i}$ 有 $S_{i}$ 个，类别取值个数为k
k个，那么参数个数为 $\prod_{j=1}^{n} S_{j}$ 。这显然是不可行的。针对这个问题，朴素贝叶斯算法对条件概率分布做了独立性的假设，通俗地讲就是说假设各个维度的特征 $x=\left(x_{1}, x_{2}, \cdots, x_{n}\right)$ 互相独立，由于这是一个较强的假设，朴素贝叶斯算法也因此得名。在这个假设的前提上，条件概率可以转化为：
$P\left(x | y_{i}\right)=P\left(x_{1}, x_{2}, \cdots, x_{n} | y_{i}\right)=\prod_{i=1}^{n} P\left(x_{i} | y_{i}\right)$
这样参数规模就降到了 $\prod_{i=1}^{n} S_{i}k$ 以上就是针对条件概率所作出的特征条件独立性假设，至此，先验概率 $P(y_{k})$ 和条件概率 $P(x|y_{k})$ 的求解问题就都解决了
推导可得：
$P\left(y_{k} | x\right)=\frac{P\left(y_{k}\right) \prod_{i=1}^{n} P\left(x_{i} | y_{k}\right)}{\sum_{k} P\left(y_{k}\right) \prod_{i=1}^{n} P\left(x_{i} | y_{k}\right)}$
于是朴素贝叶斯分类器可表示为：
$f(x)=\arg \max _{y_{k}} P\left(y_{k} | x\right)=\arg \max _{y_{k}} \frac{P\left(y_{k}\right) \prod_{i=1}^{n} P\left(x_{i} | y_{k}\right)}{\sum_{k} P\left(y_{k}\right) \prod_{i=1}^{n} P\left(x_{i} | y_{k}\right)}$

因为对于所有的 $y_{k}$ ，上式中的分母的值都是一样的.朴素贝叶斯最终表示为：
$f(x)=\arg \max _{y_{k}} P\left(y_{k} | x\right)=\arg \max _{y_{k}} \{P\left(y_{k}\right) \prod_{i=1}^{n}P(x_{i}|y_{k})$

极大似然估计

在朴素贝叶斯法中，学习意味着估计 $P(Y=c_{k})$ 和 $P(X^{(j)}=x^{(j)}|Y=c_{k})$ 可以用极大似然估计法估计相应的概率。先验概率 $P(Y=c_{k})$ 的极大似然估计是
$P(Y=c_{k})=\frac{ \sum_{i=1}^{N}I(y_{i}=c_{k}))}{N}$

归结贝叶斯

朴素贝叶斯
$\mid x_1, \dots, x_n) = \frac{P(y) P(x_1, \dots x_n \mid y)} {P(x_1, \dots, x_n)}$
高斯贝叶斯
$P(x_i \mid y) = \frac{1}{\sqrt{2\pi\sigma^2_y}} \exp\left(-\frac{(x_i - \mu_y)^2}{2\sigma^2_y}\right)$
多项分布朴素贝叶斯
$\hat{\theta}_{yi} = \frac{ N_{yi} + \alpha}{N_y + \alpha n}$
补充朴素贝叶斯
伯努利朴素贝叶斯
$P(x_i \mid y) = P(i \mid y) x_i + (1 - P(i \mid y)) (1 - x_i)$

NoOne-csdn

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
机器学习朴素贝叶斯法（持续更新中）

朴素贝叶斯（Naive Bayes）是基于贝叶斯定理与特征条件假设的分类方法。属于监督学习的生产模型。对于给定的训练数据集，首先基于特征条件独立假设学习输入/输出的联合分布；然后基于此模型，对给定的输入x，利用贝叶斯定理求出后验概率最大的输出y。朴素贝叶斯实现简单，学习与预测的效率都很高，是一种常用的方法特征条件独立假设这一部分开始朴素贝叶斯的理论推导，从中你会深刻地理解什么是特征条件独...
复制链接

扫一扫

专栏目录