MOOC：数据仓库与数据挖掘——第八讲分类分析与ID3决策树算法

最新推荐文章于 2022-08-24 20:14:28 发布

庄园特聘拆椅狂魔

最新推荐文章于 2022-08-24 20:14:28 发布

阅读量341

点赞数 1

分类专栏：Ｍooc学习文章标签：分类分析决策树 ID3算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/lt_BeiMo/article/details/118857076

版权

Ｍooc学习专栏收录该内容

24 篇文章 48 订阅

订阅专栏

1.分类分析

通过样本学习分类关系（分类规则）

一般流程：

1.数据准备：

检查样本属性特征是否一致、完整，不同样本之间是否相互独立

2.特征选择：

选择与类别相关的特征,可大致分为：强相关（能区分类别的属性）、弱相关（能区分部分类别的水属性）、不相关（不能区分类别的属性）

3。建立分类器：

训练集——>分类算法——>模型

通过可信度来评判模型

2.决策树——分类模型

树形结构，属性分割，节点表示分布

2个步骤：生成、修剪

应用：对未知数据分割

典型算法：ID3算法

决策树中，非叶节点——非类别属性值（特征）

树枝——属性的值

叶节点——根到叶的路径对应对应的记录所属的类别属性值

非叶节点：与属性中具有最大信息量的非类别属性相关联

属性选择度量——信息增益

信息增益度量，也称属性选择度量，分类优劣度量

目标：选择最高信息增益（或最大熵压缩）的属性，该属性反映划分的最小随机性或“不纯性”

特点：数据是离散的，解决的是分类问题

根节点：区分能力最强

区分能力强弱通过最大信息量（信息增益）来区分

选择度量、纯度、熵——信息量

树可以转换为IF-THEN分类规则<=>根到叶子的路径

算法分析：

自上而下，分而治之——贪心算法

度量：信息增益

停止条件：无属性可继续区分或各分值已纯

过度适应问题：

剪枝

先剪枝、后剪枝

庄园特聘拆椅狂魔

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
MOOC：数据仓库与数据挖掘——第八讲分类分析与ID3决策树算法

1.分类分析通过样本学习分类关系（分类规则）一般流程：1.数据准备：检查样本属性特征是否一致、完整，不同样本之间是否相互独立2.特征选择：选择与类别相关的特征,可大致分为：强相关（能区分类别的属性）、弱相关（能区分部分类别的水属性）、不相关（不能区分类别的属性）3。建立分类器：训练集——>分类算法——>模型通过可信度来评判模型2.决策树——分类模型树形结构，属性分割，节点表示分布2个步骤：生成、修剪应用...
复制链接

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。