数据挖掘读书笔记--第八章(中)：分类：贝叶斯分类法、基于规则分类

最新推荐文章于 2023-12-28 22:02:44 发布

SanFanCSgo

最新推荐文章于 2023-12-28 22:02:44 发布

阅读量1.5k

点赞数 1

分类专栏： python及算法学习数据挖掘概念与技术读书笔记文章标签：数据挖掘贝叶斯分类 Python实现朴素贝叶斯基于规则分类

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_40170902/article/details/79973788

版权

本文介绍了数据挖掘中的两种经典分类算法：贝叶斯分类法（包括朴素贝叶斯原理和Python实现）和基于规则的分类（如IF-THEN规则和顺序覆盖算法）。贝叶斯分类法利用贝叶斯定理进行概率预测，朴素贝叶斯假设各属性相互独立。基于规则分类通过IF-THEN规则表示，可以从决策树中提取或直接通过顺序覆盖算法生成。

摘要由CSDN通过智能技术生成

散记知识点

——“继续学习经典分类算法”

3. 贝叶斯分类法(Naive Bayesian)

贝叶斯分类法是统计学分类方法，基于贝叶斯定理。朴素贝叶斯分类法可以与决策树和经过挑选的神经网络分类器相媲美。用于大型数据库，贝叶斯分类法也表现出高准确率和高速度。

3.1 贝叶斯定理

设数据元组 $X$ 有 $n$ 个属性，给定 $X$ 的 $n$ 个属性值已知的条件下， $X$ 被认定为类别 $C$ 的概率为 $P(C|X)$ ，称为后验概率也即我们要求的概率。

$P(X)、P(C)$ 称为先验概率，其中 $P(X)$ 可以用 $X$ 出现的概率来估计。比如，在顾客集合中，年龄为35岁且收入为4万美元的概率。 $P(C)$ 为类别的先验概率，可以用类 $C$ 在整个数据集出现的频率来估计。

$P(X|C)$ 是在类别为 $C$ 的条件下， $X$ 的后验概率。例如，已知类别为顾客 $X$ 购买计算机，则 $X$ 的年龄为35岁收入为4万元的概率。

根据已知数据集 $D$ ，我们可以得到 $P(X)、P(C)和P(X|C)$ ，则在给定一个新的数据元组 $X$ ，来判断它是否属于某类的概率为 $P(C|X)$ ：（例如，已知年龄为30岁收入为3万美元顾客，则他会购买计算机的概率为：)

P (C | X) = P ( X | C ) P ( C ) P ( X )

$P(C|X)=\frac{P(X|C)P(C)}{P(X)}$

即为贝叶斯公式。

3.2 朴素贝叶斯分类

朴素贝叶斯分类法有个前提条件：为了简化运算，假设在给定类别 $C$ 的条件下，每个属性相互独立。这一假设称为类条件独立性，大大简化的计算量，故被称为“朴素”贝叶斯分类。

朴素贝叶斯分类的主要过程如下：

(1) 数据集 $D$ 中，每个数据元组 $X$ 有 $n$ 个属性 $A_1, A_2,..., A_{n}$ 的属性值组成： $X=\{x_1, x_2, ..., x_n\}$ 。同时，有 $m$ 个类 $C_1, C_2,...,C_n$ 。
- (2) 给定数据元组 $X$ ，使用贝叶斯定理预测 $X$ 属于使得 $P(C_i|X)$ 最大的类

最低0.47元/天解锁文章

关注

1
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。