el-select 多选取值_决策树算法之ID3(基于信息增益的最优特征选取)

4b106bab8bd9fa4723ec2fdf2c2d5091.png

阅读目录:

  1. ID3算法的基本流程:
  2. 核心思想
  3. 基本概念介绍
  4. 计算步骤
  5. ID3算法的缺陷

ID3算法的基本流程:

1.计算数据集中所有特征(属性)的信息增益。

2.比较信息增益最大的作为最优特征,以此为决策树的根节点。

3.在剩余未成节点的特征中进行递归成树。

核心思想:

决策树算法中根节点的分类权重最高,向下依次递减;选取分类能力最强的特征作为根节点可以极大的提升分类效率。通过信息增益量化每个特征的分类能力,该特征信息增益越大,分类能力越强,即:计算数据集中各特征点的信息增益,信息增益最大的特征点作为决策树根节点,依次向下递归。

基本概念介绍:

1.熵

1948年,香农将统计物理中熵的概念,引申到信道通信的过程中,从而开创了”信息论“这门学科。香农定义的

“熵”又被称为“香农熵” 或 “信息熵”, 即:

2.信息增益

在信息增益中,衡量标准是看特征能够为分类系统带来多少信息,带来的信息越多,该特征越重要。对一个特

征而言,系统有它和没它时信息量将发生变化,而前后信息量的差值就是这个特征给系统带来的信息量。所谓信息

量,就是熵。

计算步骤:

(1)数据集D的总体熵:

bbb15d474fca833604af0ad6a6b87f41.png

(2)特征A对数据集D的熵:

cc08882a0f00b3826c2641ba29331b31.png

(3)特征A的信息增益:

87e28119f021ac8cf742c311bba479a9.png

ID3算法的缺陷:

a)ID3没有考虑连续特征,比如长度,密度都是连续值,无法在ID3运用。这大大限制了ID3的用途。

b)ID3采用信息增益大的特征优先建立决策树的节点。很快就被人发现,在相同条件下,取值比较多的特征比取值少的特征信息增益大。

c) ID3算法对于缺失值的情况没有做考虑

d) 没有考虑过拟合的问题

倾向特征选项较多的特征的原因:

在相同条件下,取值比较多的特征比取值少的特征信息增益大。

ID3采用信息增益大的特征优先建立决策树的节点

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值