数据挖掘读书笔记--第八章(中):分类:贝叶斯分类法 、基于规则分类

本文介绍了数据挖掘中的两种经典分类算法:贝叶斯分类法(包括朴素贝叶斯原理和Python实现)和基于规则的分类(如IF-THEN规则和顺序覆盖算法)。贝叶斯分类法利用贝叶斯定理进行概率预测,朴素贝叶斯假设各属性相互独立。基于规则分类通过IF-THEN规则表示,可以从决策树中提取或直接通过顺序覆盖算法生成。
摘要由CSDN通过智能技术生成

散记知识点

——“继续学习经典分类算法”


3. 贝叶斯分类法(Naive Bayesian)

贝叶斯分类法是统计学分类方法,基于贝叶斯定理。朴素贝叶斯分类法可以与决策树和经过挑选的神经网络分类器相媲美。用于大型数据库,贝叶斯分类法也表现出高准确率和高速度。

3.1 贝叶斯定理

设数据元组 X X n 个属性,给定 X X n 个属性值已知的条件下, X X 被认定为类别 C 的概率为 P(C|X) P ( C | X ) ,称为后验概率也即我们要求的概率。

P(X)P(C) P ( X ) 、 P ( C ) 称为先验概率,其中 P(X) P ( X ) 可以用 X X 出现的概率来估计。比如,在顾客集合中,年龄为35岁且收入为4万美元的概率。 P ( C ) 为类别的先验概率,可以用类 C C 在整个数据集出现的频率来估计。

P ( X | C ) 是在类别为 C C 的条件下, X 的后验概率。例如,已知类别为顾客 X X 购买计算机,则 X 的年龄为35岁收入为4万元的概率。

根据已知数据集 D D ,我们可以得到 P ( X ) P ( C ) P ( X | C ) ,则在给定一个新的数据元组 X X ,来判断它是否属于某类的概率为 P ( C | X ) :(例如,已知年龄为30岁收入为3万美元顾客,则他会购买计算机的概率为:)

P(C|X)=P(X|C)P(C)P(X) P ( C | X ) = P ( X | C ) P ( C ) P ( X )

即为贝叶斯公式


3.2 朴素贝叶斯分类

朴素贝叶斯分类法有个前提条件:为了简化运算,假设在给定类别 C C 的条件下,每个属性相互独立。这一假设称为类条件独立性,大大简化的计算量,故被称为“朴素”贝叶斯分类。

朴素贝叶斯分类的主要过程如下:

  • (1) 数据集 D 中,每个数据元组 X X n 个属性 A1,A2,...,An A 1 , A 2 , . . . , A n 的属性值组成: X={ x1,x2,...,xn} X = { x 1 , x 2 , . . . , x n } 。同时,有 m m 个类 C 1 , C 2 , . . . , C n

    • (2) 给定数据元组 X X ,使用贝叶斯定理预测 X 属于使得 P(Ci|X) P ( C i | X ) 最大的类

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值