分类:基本概念

目标:

分类概念:

分类的两个步骤和方法:

 

学习:

训练集包含两部分,即数据属性和类别标签(类标号属性)

属于监督学习

预测:

过拟合

检验集

 

决策树:

CLSConcept Learning System)算法。

       CLS算法是早期的决策树学习算法。它是许多决策树学习算法的基础。

  CLS基本思想:

        从一棵空决策树开始,选择某一属性(分类属性)作为测试属性。该测试属性对应决策树中的决策结点。根据该属性的值的不同,可将训练样本分成相应的子集,如果该子集为空,或该子集中的样本属于同一个类,则该子集为叶结点,否则该子集对应于决策树的内部结点,即测试结点,需要选择一个新的分类属性对该子集进行划分,直到所有的子集都为空或者属于同一类。

CLS缺点:

采用不同的测试属性及其先后顺序将会生成不同的决策树

衡量信息多少的物理量称为信息量

若概率很大,受信者事先已有所估计,则该消息信息量就很小;

若概率很小,受信者感觉很突然,该消息所含信息量就很大。

信源含有的信息量是信源发出的所有可能消息的平均不确定性,香农把信源所含有的信息量称为信息熵,是指每个符号所含信息量的统计平均值。对于一个随机事件X,其信息熵的定义为:

条件信息熵的计算,看PPT自己领会吧。【重点】

1,

2,

条件信息熵计算,自行百度吧【重点!】

下面的估计不会考:

1,

2,

3,

信息增益的计算以及测试属性的选择:【重点

计算:

信息增益率:

基尼指数:

决策树剪枝:【重点

【不整啦,还是看PPT老实复习吧】

 

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值