决策树算法之ID3(基于信息增益的最优特征选取)

ID3算法的基本流程:

1.计算数据集中所有特征(属性)的信息增益。

2.比较信息增益最大的作为最优特征,以此为决策树的根节点。

3.在剩余未成节点的特征中进行递归成树。


核心思想: 

     决策树算法中根节点的分类权重最高,向下依次递减;选取分类能力最强的特征作为根节点可以极大的提升分类效率。通过信息增益量化每个特征的分类能力,该特征信息增益越大,分类能力越强,即:计算数据集中各特征点的信息增益,信息增益最大的特征点作为决策树根节点,依次向下递归。 

基本概念介绍:

1.熵

1948年,香农将统计物理中熵的概念,引申到信道通信的过程中,从而开创了”信息论“这门学科。香农定义的

“熵”又被称为“香农熵” 或 “信息熵”, 即:


2.信息增益

在信息增益中,衡量标准是看特征能够为分类系统带来多少信息,带来的信息越多,该特征越重要。对一

征而言,系统有它和没它时信息量将发生变化,而前后信息量的差值就是这个特征给系统带来的信息量。所谓信息

量,就是熵。

计算步骤:

(1)数据集D的总体熵:

(2)特征A对数据集D的熵:


(3)特征A的信息增益:

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值