机器学习（八）：朴素贝叶斯分类

最新推荐文章于 2022-11-24 12:09:01 发布

芙兰泣露

最新推荐文章于 2022-11-24 12:09:01 发布

阅读量357

点赞数

分类专栏：机器学习与算法文章标签：机器学习

本文链接：https://blog.csdn.net/u012882134/article/details/78326163

版权

机器学习与算法专栏收录该内容

16 篇文章 3 订阅

订阅专栏

本节将只从最简单的一个公式讲起，不会涉及到复杂的风险函数等理论，主要在于明白求解过程。

一个公式

$x$ 代表属性取值，y代表类变量，则有：

p (y | x) = p ( x | y ) p ( y ) p ( x )

$p(y|x)=\frac{p(x|y)p(y)}{p(x)}$
上述公式构成了朴素贝叶斯的所有内涵。

即如果我们知道了属性x，需要预估该属性属于哪个类（ $p(y|x)$ ），那么我们可以通过三个已知的概率来计算出来

假设

注意上述公式在任何条件下都成立，那么关于朴素贝叶斯，我们通常所说的独立条件概率是什么意思呢？
一般来说，当数据量很少而属性的个数较大时， $p(x|y)$ 往往等于0.但实际上我们知道，在关于该样本的真实概率中， $p(x|y)$ 往往是不为0的，在这里为0，是因为我们使用频率代替概率导致的。
这时候这种替代的效果就不好了，我们需要是使用新的方法来计算 $p(x|y)$ 。
如果样本的各个属性相互之间没有关系，或者我们称为条件独立，那么就有：

p (x | y) = p (x 0 | y) p (x 1 | y) . . . p (x n | y) = \sum i p (x i | y)

$p(x|y)=p(x_0|y)p(x_1|y)...p(x_n|y)=\sum_{i}{p(x_i|y)}$
同理可以计算

p(x) $p(x)$ .
这就是我们引入条件独立假设的原因。

另一种估计

如果在计算时发现 $p(x_i|y)$ 为0，怎么办？
解决办法是这样的：就假设 $p(x_i|y)=\frac{1}{类y的个数}$ 。
或者说对于类取y的样本子集合，给每个属性都增加计数1，这样就解决计算过程为0的问题了。
由此可以看出，在实际计算中，朴素贝叶斯的使用限制还是挺多的，尤其在数据量小的情况下。
根据朴素贝叶斯的性质，一般朴素贝叶斯最典型的应用是垃圾分类，邮件类别判断等属性离散的应用。

连续值

虽然不是朴素贝叶斯的特长，但连续值也能被处理。
那就是引入另一个假设，高斯分布。
即连续属性是服从高斯分布的。
比如某个连续属性排好序后如下：
0.6, 0.8, 0.9, 1.0, 1.0, 1.1, 1.1, 1.1, 1.2, 1.3, 1.5, 1.9
假设上述数据服从高斯分布（其实我们可以使用置信区间来进行验证），那么很显然可以估计出其均值和方差。
那么就有：

p (x i | y) = 1 2 π ‾ ‾ ‾ \sqrt σ e - ( x i - μ ) 2 2 σ 2

$p(x_i|y)=\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x_i-\mu)^2}{2\sigma^2}}$
如上所述，

μ和σ $\mu和\sigma$ 都是可以被计算的。

芙兰泣露

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
机器学习（八）：朴素贝叶斯分类

本节将只从最简单的一个公式讲起，不会涉及到复杂的风险函数等理论，主要在于明白求解过程。一个公式xx代表属性取值，y代表类变量，则有： p(y|x)=p(x|y)p(y)p(x)p(y|x)=\frac{p(x|y)p(y)}{p(x)} 上述公式构成了朴素贝叶斯的所有内涵。即如果我们知道了属性x，需要预估该属性属于哪个类（p(y|x)p(y|x)），那么我们可以通过三个已知的概率来计算出来
复制链接

扫一扫