分类：基本概念

最新推荐文章于 2021-08-08 14:49:01 发布

dream_uping

最新推荐文章于 2021-08-08 14:49:01 发布

阅读量4.9k

点赞数 3

分类专栏：数据挖掘文章标签：分类：基本概念

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_42859280/article/details/93367692

版权

数据挖掘专栏收录该内容

19 篇文章 26 订阅

订阅专栏

目标：

分类概念：

分类的两个步骤和方法：

学习：

训练集包含两部分，即数据属性和类别标签（类标号属性）

属于监督学习

预测:

过拟合

检验集

决策树：

CLS（Concept Learning System）算法。

CLS算法是早期的决策树学习算法。它是许多决策树学习算法的基础。

CLS基本思想：

从一棵空决策树开始，选择某一属性（分类属性）作为测试属性。该测试属性对应决策树中的决策结点。根据该属性的值的不同，可将训练样本分成相应的子集，如果该子集为空，或该子集中的样本属于同一个类，则该子集为叶结点，否则该子集对应于决策树的内部结点，即测试结点，需要选择一个新的分类属性对该子集进行划分，直到所有的子集都为空或者属于同一类。

CLS缺点：

【采用不同的测试属性及其先后顺序将会生成不同的决策树】

衡量信息多少的物理量称为信息量

若概率很大，受信者事先已有所估计，则该消息信息量就很小；

若概率很小，受信者感觉很突然，该消息所含信息量就很大。

信源含有的信息量是信源发出的所有可能消息的平均不确定性，香农把信源所含有的信息量称为信息熵，是指每个符号所含信息量的统计平均值。对于一个随机事件X，其信息熵的定义为：

条件信息熵的计算，看PPT自己领会吧。【重点】

1,

2,

条件信息熵计算，自行百度吧【重点！】

下面的估计不会考:

1，

2，

3，

信息增益的计算以及测试属性的选择：【重点】

计算：

信息增益率：

基尼指数：

决策树剪枝：【重点】

【不整啦，还是看PPT老实复习吧】

关注

3
点赞
踩
2

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。