el-select 多选取值_决策树算法之ID3（基于信息增益的最优特征选取）

最新推荐文章于 2023-03-06 10:57:56 发布

weixin_39732506

最新推荐文章于 2023-03-06 10:57:56 发布

阅读量180

点赞数

文章标签： el-select 多选取值基于haar特征的adaboost算法

阅读目录:

ID3算法的基本流程：
核心思想
基本概念介绍
计算步骤
ID3算法的缺陷

ID3算法的基本流程：

1.计算数据集中所有特征（属性）的信息增益。

2.比较信息增益最大的作为最优特征，以此为决策树的根节点。

3.在剩余未成节点的特征中进行递归成树。

核心思想：

决策树算法中根节点的分类权重最高，向下依次递减；选取分类能力最强的特征作为根节点可以极大的提升分类效率。通过信息增益量化每个特征的分类能力，该特征信息增益越大，分类能力越强，即：计算数据集中各特征点的信息增益，信息增益最大的特征点作为决策树根节点，依次向下递归。

基本概念介绍：

1.熵

1948年，香农将统计物理中熵的概念，引申到信道通信的过程中，从而开创了”信息论“这门学科。香农定义的

“熵”又被称为“香农熵” 或 “信息熵”, 即：

2.信息增益

在信息增益中，衡量标准是看特征能够为分类系统带来多少信息，带来的信息越多，该特征越重要。对一个特

征而言，系统有它和没它时信息量将发生变化，而前后信息量的差值就是这个特征给系统带来的信息量。所谓信息

量，就是熵。

计算步骤：

（1）数据集D的总体熵：

（2）特征A对数据集D的熵：

（3）特征A的信息增益：

ID3算法的缺陷:

a)ID3没有考虑连续特征，比如长度，密度都是连续值，无法在ID3运用。这大大限制了ID3的用途。

b)ID3采用信息增益大的特征优先建立决策树的节点。很快就被人发现，在相同条件下，取值比较多的特征比取值少的特征信息增益大。

c) ID3算法对于缺失值的情况没有做考虑

d) 没有考虑过拟合的问题

倾向特征选项较多的特征的原因:

在相同条件下，取值比较多的特征比取值少的特征信息增益大。

ID3采用信息增益大的特征优先建立决策树的节点

weixin_39732506

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。