根据信息增益率构造决策树_决策树--信息增益,信息增益比,Geni指数

本文介绍了决策树的构造过程,重点关注了信息增益、信息增益率和基尼指数在特征选择中的作用。通过熵和信息增益的概念,解释了如何度量数据集的纯度和不确定性。信息增益易偏向取值多的特征,而信息增益率通过引入惩罚参数进行了修正。最后,讨论了基尼指数作为另一种度量标准,用于CART算法构建二叉树。
摘要由CSDN通过智能技术生成

决策树 是表示基于特征对实例进行分类的树形结构
从给定的训练数据集中,依据特征选择的准则,递归的选择最优划分特征,并根据此特征将训练数据进行分割,使得各子数据集有一个最好的分类的过程。
决策树算法3要素:

    • 特征选择
    • 决策树生成
    • 决策树剪枝


部分理解:关于决策树生成
决策树的生成过程就是 使用满足划分准则的特征不断的将数据集划分为纯度更高,不确定性更小的子集的过程。
对于当前数据集D的每一次的划分,都希望根据某特征划分之后的各个子集的纯度更高,不确定性更小。而如何度量划分数据集前后的数据集的纯度以及不确定性呢? 答案:特征选择准则,比如:信息增益,信息增益率,基尼指数特征选择准则:目的:使用某特征对数据集划分之后,各数据子集的纯度要比划分前的数据集D的纯度高(不确定性要比划分前数据集D的不确定性低。)注意
1. 划分后的纯度为各数据子集的纯度的加和(子集占比*子集的经验熵)。
2. 度量划分前后的纯度变化 用子集的纯度之和与划分前的数据集D的纯度 进行对比。特征选择的准则就是 度量样本集合不确定性以及纯度的方法。本质相同,定义不同而已。特征选择的准则主要有以下三种:信息增益,信息增益率,基尼指数


首先介绍一下熵的概念以及理解:
熵:度量随机变量的不确定性。(纯度)
定义:假设随机变量X的可能取值有x1,x2, ... , xn
对于每一个可能的取值xi,其概率 P(X=xi) = pi , ( i = 1,2, ... , n)
因此随机变量X的熵:

248384539cfe8b51f5303333cdcbdbf8.png

对于样本集合D来说,随机变

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值