【数据挖掘】数据挖掘总结 ( 拉普拉斯修正 | 贝叶斯分类器示例2 ) ★

最新推荐文章于 2023-07-03 08:09:43 发布

韩曙亮

最新推荐文章于 2023-07-03 08:09:43 发布

阅读量1.9k

点赞数 2

分类专栏：数据挖掘文章标签：数据挖掘拉普拉斯修正贝叶斯分类器朴素贝叶斯

本文链接：https://blog.csdn.net/shulianghan/article/details/111773456

版权

数据挖掘专栏收录该内容

54 篇文章 43 订阅

订阅专栏

文章目录

一、贝叶斯分类器分类的流程
二、拉普拉斯修正
三、贝叶斯分类器示例2

参考博客 :

一、贝叶斯分类器分类的流程

已知条件 :

已知样本 : 已知若干个样本

未知样本 : 给定 $1$ 个未知样本 , 其有 $4$ 个属性组成向量 $\rm X$ , 样本的分类有两种 , $\rm Y$ 和 $\rm N$ ; ( Yes / No )

分类步骤 :

计算两个概率 , 即

① 样本取值为 $\rm X$ 向量时 , 分类为 $\rm Y$ 的概率 , 公式为 $\rm P(Y|X) = \cfrac{P(X | Y) P(Y)}{P(X)}$ , 其中 $\rm P(X | Y) P(Y)$ 含义是 : 样本分类 $\rm Y$ 的概率 $\rm P(Y)$ , 乘以样本分类为 $\rm Y$ 前提下样本取值 $\rm X$ 时的概率 $\rm P(X | Y)$ , 是 $\rm P(XY)$ 共同发生的概率 ;

② 样本取值为 $\rm X$ 向量时 , 分类为 $\rm N$ 的概率 , 公式为 $\rm P(N|X) = \cfrac{P(X | N) P(N)}{P(X)}$ , 其中 $\rm P(X | N) P(N)$ 含义是 : 样本分类为 $\rm N$ 的概率 $\rm P(N)$ , 乘以样本取值 $\rm N$ 时的概率 $\rm P(X | N)$ , 是 $\rm P(XN)$ 共同发生的概率 ;

上述两个概率 , 哪个概率高 , 就将该样本分为哪个分类 ;

先验概率 : $\rm P(Y)$ , $\rm P(N)$ ;

后验概率 : $\rm P(X | Y)$ , $\rm P(X | N)$ ;

上述两个公式 $\rm P(Y|X) = \cfrac{P(X | Y) P(Y)}{P(X)}$ 和 $\rm P(N|X) = \cfrac{P(X | N) P(N)}{P(X)}$ , 分母都是 $\rm P(X)$ , 只比较分子即可 , 其中先验概率 $\rm P(Y)$ , $\rm P(N)$ 很容易求得 , 重点是求两个后验概率 $\rm P(X | Y) P(Y)$ , $\rm P(X | N) P(N)$ ;

后验概率 $\rm P(X | Y)$ 求法 : 针对 $\rm X$ 向量中 $4$ 个分量属性的取值 , 当样品类型是 $\rm Y$ 时 , 分量 $1$ 取值为该分量属性时的概率 , 同理计算出 $4$ 个分量属性对应的 $4$ 个概率 , 最后将四个概率相乘 ;

后验概率 $\rm P(X | Y)$ 再乘以先验概率 $\rm P(Y)$ , 就是最终的 未知样本分类为 $\rm Y$ 类型的概率 ;

最终对比样本 , ① 未知样本分类为 $\rm Y$ 类型的概率 , ② 未知样本分类为 $\rm N$ 类型的概率 , 哪个概率大 , 就分类为哪个类型 ;

二、拉普拉斯修正

在计算后验概率 $\rm P(X | Y)$ 时 , 需要计算出当样品类型是 $\rm Y$ 时 , $\rm X$ 向量的分量 $1$ 取值为该分量属性时的概率 , 同理计算出 $4$ 个分量属性对应的 $4$ 个概率 , 最后将四个概率相乘 ;

如果上述 $4$ 个相乘的概率其中有一个是 $0$ , 那么最终结果肯定就是 $0$ , 这里需要避免这种情况 , 引入拉普拉斯修正 ;

直接上栗子 , 不扯公式 ;

如果计算时 , $9$ 个样本是购买商品的 , 但年龄都大于 $30$ , 计算过程如下 ;

$\rm P( 年龄小于 30 | Y) = \cfrac{0}{9}$

拉普拉斯修正就是分子加 $1$ , 分母加上样本类型个数 $2$ ; ( 样本有两个类型 , $\rm Y$ 购买商品 , $\rm N$ 不购买商品 ) ;

$\rm P( 年龄小于 30 | Y) = \cfrac{0 + 1}{9 + 2} = \cfrac{1}{11}$

注意是所有的分量的概率都要进行拉普拉斯修正 , 不能只修正这一个 ;

三、贝叶斯分类器示例2

分类需求 : 根据年龄 , 收入水平 , 级别 , 部门 , 人数 , 预测 " 年龄 $31 . . 35$ , 收入 $\rm 41k..45k$ , $\rm systems$ 部门 " 的员工级别 ;

年龄	收入	级别	部门	人数
$31 . . 35$	$\rm 46k..50k$	$\rm senior$	$\rm sales$	$30$
$26 . . 30$	$\rm 26k..30k$	$\rm junior$	$\rm sales$	$\rm 40$
$31 . . 35$	$\rm 31k..35k$	$\rm junior$	$\rm sales$	$\rm 40$
$21 . . 25$	$\rm 46k..50k$	$\rm junior$	$\rm systems$	$\rm 20$
$31 . . 35$	$\rm 66k..70k$	$\rm senior$	$\rm systems$	$\rm 5$
$26 . . 30$	$\rm 46k..50k$	$\rm junior$	$\rm systems$	$\rm 3$
$41 . . 45$	$\rm 66k..45k$	$\rm senior$	$\rm systems$	$\rm 3$
$36 . . 40$	$\rm 46k..50k$	$\rm senior$	$\rm marketing$	$\rm 10$
$31 . . 35$	$\rm 41k..45k$	$\rm junior$	$\rm marketing$	$\rm 4$
$46 . . 50$	$\rm 36k..40k$	$\rm senior$	$\rm secretary$	$\rm 4$
$26 . . 30$	$\rm 26k..30k$	$\rm junior$	$\rm secretary$	$\rm 6$

未知样本取值 $\rm X$ 向量为 " 年龄 $31 . . 35$ , 收入 $\rm 41k..45k$ , $\rm systems$ 部门 " ;

未知样本分类为 $\rm senior$ ( 高级 ) 类型的概率 : $\rm P(senior | X) = \cfrac{P(X|senior) P(senior)}{P(X)}$

未知样本分类为 $\rm junior$ ( 低级 ) 类型的概率 : $\rm P(junior | X) = \cfrac{P(X|junior) P(junior)}{P(X)}$

上述两个概率的分母 $\rm P(X)$ 是常数 , 对比时可以忽略 , 只需要对比分子即可 ;

先验概率 $\rm P(senior) = \cfrac{52}{165}$ , $\rm P(junior) = \cfrac{113}{165}$ , $52$ 个人是 $\rm senior$ 级别 , $113$ 个人是 $\rm junior$ 级别 ;

后验概率

① $\rm \begin{array}{lcl} \rm P(X|senior) &=& \rm P( 年龄 31..35 | senior) \times P( 收入 41k..45k | senior) \times P( 部门 systems | senior ) \\\\ &=& \cfrac{8}{52} \times \cfrac{35}{52} \times \cfrac{0}{52} \\ \end{array}$

上述后验概率的结果为 $\rm 0$ , 需要进行 拉普拉斯修正 , 上述式子中的三个概率分子都需要 $+ 1$ , 分母都需要 $+ 2$ , 分母是分类的个数 , $\rm senior$ 和 $\rm junior$ 两个分类 , 因此分母 $+ 2$ ;

拉普拉斯修正后的结果 :

$\rm \begin{array}{lcl} \rm P(X|senior) &=& \rm \cfrac{8 + 1}{52 + 2} \times \cfrac{35 + 1}{52 + 2} \times \cfrac{0 + 1}{52 + 2} \\\\ &=& \cfrac{9}{54} \times \cfrac{36}{54} \times \cfrac{1}{54} \\ \end{array}$

② $\rm \begin{array}{lcl} \rm P(X|junior) &=& \rm P( 年龄 31..35 | junior) \times P( 收入 41k..45k | junior) \times P( 部门 systems | junior) \\\\ &=& \cfrac{23}{113} \times \cfrac{44}{113} \times \cfrac{4}{113} \\ \end{array}$

未知样本分类为 $\rm Y$ 类型的概率分子 : $\rm P(X|senior) P(senior) = \cfrac{9}{54} \times \cfrac{36}{54} \times \cfrac{1}{54} \times \cfrac{52}{165} \approx 0.0006$

未知样本分类为 $\rm N$ 类型的概率分子 : $\rm P(X|junior) P(junior) = \cfrac{23}{113} \times \cfrac{44}{113} \times \cfrac{4}{113} \times \cfrac{113}{165} \approx 0.0024$