1 基本概念
决策树看起来比较容易理解,而且,非常适合描述分类的过程和结果。
决策树有两类,分别是id3和cart。
id3适合用于离散型的特征。
cart适合于连续型。
决策树可以用最小熵来从n个样本中的m个特征中,挑选某个特征的某个值,来做分裂。
2 构造树
(1)输入n个样本;
(2)从这n个样本中挑选剩余的s个特征,然后通过最小熵理论挑选出最合适用来分裂的某个特征,以及用来做分裂的值。比如,有一组样本,它们的特征是“年龄”“性别”“身高”,然后我们通过最小熵理论计算,挑选出了“性别”,并以“男”来做分裂。如果我们挑选出了“身高”这个特征用来分裂,并且以“180cm”来作为分裂值,也是可以的(虽然我们说更适合离散型的特征),也就是说,低于180的分一组,高于180的去另外一组这样,等于的去第三组。也可以等于的一组,其它另外一组。这个比较灵活。
(3)这样,在新的分组中,再次应用构造树算法,并且把原来的s个特征减少为s-1个特征(也就是说,上一次挑选出来的特征不再用了,这是比较简化的做法)