信息增益与决策树

本文介绍了决策树的基本原理,包括信息熵、信息增益的概念,用于特征选择。接着详细阐述了决策树的生成、剪枝过程以及正则化的学习损失函数。此外,还探讨了随机森林的构建方法,强调了随机森林通过行、列采样和完全分裂避免过拟合,以及其诸多优点。
摘要由CSDN通过智能技术生成

决策树是一种判别式模型。在一颗分类决策树中,非叶子节点时决策规则,叶子节点是类别。当输入一个特征向量时,按照决策树上的规则从根节点向叶节点移动,最后根据叶节点的类别判定输入向量的类别。决策树也可以用来解决回归问题。

建立一个决策树模型主要有三个步骤:特征选择决策树的生成决策树的剪枝。而特征选择时要用到信息增益这个概念。

特征选择:

对于一个随机变量X,它的熵可以表示为:


对于两个随机变量X、Y,在已知X的情况下,Y的条件熵为:


其中,


信息增益(IG)互信息(MI)的定义是:


也就是说在已知A的情况下随机变量D的不确定性的减少程度,也就是在我们知道A的情况下获得了多少信息。

如果D是数据类别的随机变量,而A是数据某个特征的随机变量,可以想见使得信息增益最大的特征是最好的特征。因为这个特征可以最大程度上减少我们对类别的不确定性

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值