阅读目录:
- ID3算法的基本流程:
- 核心思想
- 基本概念介绍
- 计算步骤
- ID3算法的缺陷
ID3算法的基本流程:
1.计算数据集中所有特征(属性)的信息增益。
2.比较信息增益最大的作为最优特征,以此为决策树的根节点。
3.在剩余未成节点的特征中进行递归成树。
核心思想:
决策树算法中根节点的分类权重最高,向下依次递减;选取分类能力最强的特征作为根节点可以极大的提升分类效率。通过信息增益量化每个特征的分类能力,该特征信息增益越大,分类能力越强,即:计算数据集中各特征点的信息增益,信息增益最大的特征点作为决策树根节点,依次向下递归。
基本概念介绍:
1.熵
1948年,香农将统计物理中熵的概念,引申到信道通信的过程中,从而开创了”信息论“这门学科。香农定义的
“熵”又被称为“香农熵” 或 “信息熵”, 即:
2.信息增益
在信息增益中,衡量标准是看特征能够为分类系统带来多少信息,带来的信息越多,该特征越重要。对一个特
征而言,系统有它和没它时信息量将发生变化,而前后信息量的差值就是这个特征给系统带来的信息量。所谓信息
量,就是熵。
计算步骤:
(1)数据集D的总体熵:
(2)特征A对数据集D的熵:
(3)特征A的信息增益:
ID3算法的缺陷:
a)ID3没有考虑连续特征,比如长度,密度都是连续值,无法在ID3运用。这大大限制了ID3的用途。
b)ID3采用信息增益大的特征优先建立决策树的节点。很快就被人发现,在相同条件下,取值比较多的特征比取值少的特征信息增益大。
c) ID3算法对于缺失值的情况没有做考虑
d) 没有考虑过拟合的问题
倾向特征选项较多的特征的原因:
在相同条件下,取值比较多的特征比取值少的特征信息增益大。
ID3采用信息增益大的特征优先建立决策树的节点