数据挖掘-朴素贝叶斯分类

最新推荐文章于 2024-06-12 20:10:09 发布

翻滚de蛋炒饭

最新推荐文章于 2024-06-12 20:10:09 发布

阅读量1.3k

点赞数 1

分类专栏： Data Mining 文章标签：数据挖掘朴素贝叶斯

本文链接：https://blog.csdn.net/qq_36739040/article/details/94966722

版权

Data Mining 专栏收录该内容

15 篇文章 2 订阅

订阅专栏

数据挖掘-朴素贝叶斯分类

什么是分类？

分类是一种重要的数据分析形式，它提取刻画重要数据类的模型。这种模型称为分类器，预测分类的（离散的，无序的）类标号。例如医生对病人进行诊断是一个典型的分类过程，医生不是一眼就看出病人得了哪种病，而是要根据病人的症状和化验单结果诊断病人得了哪种病，采用哪种治疗方案。再比如，零售业中的销售经理需要分析客户数据，以便帮助他猜测具有某些特征的客户会购买某种商品。

朴素贝叶斯分类

贝叶斯分类法是统计学分类方法，它可以预测类隶属关系的概率（比如：通过一些特征预测或判断一个人是男人还是女人；如一个给定元组属于一个特定类的概率）。贝叶斯分类基于贝叶斯定理。

朴素贝叶斯分类法假定一个属性值在给定类上的概率独立于其他属性的值，这一假定称为类条件独立性。

名称	描述
D	训练元组和相关联类标号的集合
X	{x1,x2,x3,…,xn} 一个元组，xi是对应属性的值
C	{C1，C2…，Cm} m个类别
P(X)	对所有类别C都为常数
P(X/Ci)	$\prod_{k=1}^n P(x_k/C_i)$ note:朴素假定
P(Ci)	先验概率
P(Ci/X)	后验概率（条件概率）

朴素假定	给定具有很多属性的数据集，计算P(X / Ci)的开销非常大。为了降低计算开销，可以做类条件独立的朴素假定。给定元组的类标号，假定属性值有条件地相互独立

关于朴素假定

考察该属性是分类的还是连续值的，例如为了计算P(X|Ci)，考虑如下两种情况：

(a)、如果Ak是分类属性，则P(xk|Ci)是D中属性Ak的值为xk的Ci类的元组数除以D中Ci类的元组数|Ci,D|
(b)、如果Ak是连续值属性，则假定连续值属性服从均值为η、标准差为σ的高斯分布，由下式定义：

即 $P(x_k |C_i) = g (x_k,η_{ci},σ_{ci})$

朴素贝叶斯分类流程

确定特征属性
获取训练样本
对每一个类别计算P(Ci)
对每个特征属性计算所有划分的条件概率P(X|Ci)
对每个类别计算P(X|Ci)P(Ci)
用P(X|Ci)P(Ci)的最大项作为X所属类别

例如：

在这里插入图片描述

拉普拉斯修正

朴素贝叶斯分类器在实际使用中还需要注意的一个问题是（某个属性值没有出现怎么办？）：

若某个离散类型的属性值在训练集中没有与某个类同时出现过，那么当我们使用 $p(x_i|c)=\frac{|D_{c,x_i}|}{|D_c|}$ 对其进行估计时， $p(x_i|c)$ 会等于0，而若某个样本只是在属性i上恰好取值为 $x_i$ ，但是它其它的属性非常符合这个类型c的特征，于是在用最后的连乘式计算该样本属于该类的概率时，不管其它的属性如何取值，就会因为 $p(x_i|c)$ 这一个零值导致分类器认为该样本属于这个类型c的概率为0，这显然是不合理的。

比如在西瓜书西瓜训练集中，好瓜当中暂时没有具备特征{敲声=清脆}的样本，于是对于一个“敲声=清脆”的测试例：

$P_{(清脆|是)}=P_{(敲声=清脆|好瓜=是)}=\frac{0}{8}=0$

那么，不管该测试瓜在其它属性上有多么接近好瓜，都会被直接判定为是好瓜的概率为0。

这个问题本质上是由于我们的训练集不够完整，没有包括足够多的样本。但是，为了避免这个问题的出现，我们通常还是在估计概率值时，对其进行“平滑”（smoothing）操作，通常使用“拉普拉斯修正”（Laplacian correction）。

$\hat{P}（c）=\frac{|D_c|+1}{|D|+N}，$
$\hat{P}(x_i|c)=\frac{|D_{c, x_i}|+1}{|D_c|+N_i}$

即，我们在分母上都加上取值的可能性个数，分子上都加1，这就保证了即使是存在某个属性i的取值 $x_i$ 未曾与类别 $c_i$ 同时出现过，我们也不会把其概率 $P(x_i|c)$ 算成0.

参考

https://blog.csdn.net/ccblogger/article/details/81712351
https://www.cnblogs.com/luonet/p/4028990.html

翻滚de蛋炒饭

关注

1
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
数据挖掘-朴素贝叶斯分类

数据挖掘-朴素贝叶斯分类什么是分类？分类是一种重要的数据分析形式，它提取刻画重要数据类的模型。这种模型称为分类器，预测分类的（离散的，无序的）类标号。例如医生对病人进行诊断是一个典型的分类过程，医生不是一眼就看出病人得了哪种病，而是要根据病人的症状和化验单结果诊断病人得了哪种病，采用哪种治疗方案。再比如，零售业中的销售经理需要分析客户数据，以便帮助他猜测具有某些特征的客户会购买某种商品。...
复制链接

扫一扫