ID3算法的基本流程:
1.计算数据集中所有特征(属性)的信息增益。
2.比较信息增益最大的作为最优特征,以此为决策树的根节点。
3.在剩余未成节点的特征中进行递归成树。
核心思想:
决策树算法中根节点的分类权重最高,向下依次递减;选取分类能力最强的特征作为根节点可以极大的提升分类效率。通过信息增益量化每个特征的分类能力,该特征信息增益越大,分类能力越强,即:计算数据集中各特征点的信息增益,信息增益最大的特征点作为决策树根节点,依次向下递归。
基本概念介绍:
1.熵
1948年,香农将统计物理中熵的概念,引申到信道通信的过程中,从而开创了”信息论“这门学科。香农定义的
“熵”又被称为“香农熵” 或 “信息熵”, 即:
2.信息增益
在信息增益中,衡量标准是看特征能够为分类系统带来多少信息,带来的信息越多,该特征越重要。对一个特
征而言,系统有它和没它时信息量将发生变化,而前后信息量的差值就是这个特征给系统带来的信息量。所谓信息
量,就是熵。
计算步骤:
(1)数据集D的总体熵:
(2)特征A对数据集D的熵:
(3)特征A的信息增益: