决策树算法(ID3):
数据集举例:(根据天气状况判断是否适合玩高尔夫球)
四个独立变量分别是(天气,温度,湿度,是否有风)
分类结果是 是否玩高尔夫球(PLAY)
算法步骤:
1. 计算整个数据集的熵。
以数据集最后一列分类结果作为数据依据(即PLAY那一列)
共14条记录,5条为不玩,9条为玩。
那么总的信息熵为
H(X)=0.409+0.530=0.939
2. 分别计算每个独立变量的熵
H(outlook)=5/14 (- 3/5 〖log〗_2 3/5-2/5 〖log〗_2 2/5)+4/14 (- 4/4 〖log〗_2 4/4-0/4 〖log〗_2 0/4)+
5/14 (- 3/5 〖log〗_2 3/5-2/5 〖log〗_2 2/5)
=0.693
由于温度是连续变量,我们要将其离散化,
Temper<70、70<=Temper<80、Temper>=80
H(tem