第四章主要讲述的是用一棵树来进行数据的分类,这种树就叫决策树。
在考虑多个因素决定的类别时,本章采用了一种采用信息熵的思想来进行划分。
信息熵是一种描述信息混乱程度的度量,未知的东西,从直观上来说,我们对某一件事务知道的越多,那么这件事务在我们认知中的可能性越少,这样,信息的混乱程度也越少。信息熵就是类似于该种思想。
那么决策树为什么要用到这种思想呢,怎么使用?
现在思考这么一个场景,一堆数据和将这堆根据某种规则分类过一次的数据,是不是分类过一次的数据我们心底更有数。同样的道理,我们如果将数据进行一次分类,那么,他的信息熵必然不会大于原始的信息熵,如果原始信息熵于现有信息熵的差值大于0,说明我们本次分类是有效的,减少了无用的信息。所以,只需要在每次分类中取能使信息熵降低最大的哪个因素即可。
当然,分类标准也不止这一种,比如增益率和基尼指数也可以。
分类好的数据不一定能实际运用,因为我们是拿训练数据来进行分类得到的模型,不一定可以代表真实情况,所以,还需要根据测试数据来对数进行一些剪枝处理,分为先验和后验两种,也就是从上往下看和从下往上看两种。
以上的模型是基于离散的结果得到的,但如果说是连续的结果呢,我们能直接采用连续数据的采样点来进行训练决策树吗?
答案当然是否定的,采样点采的数据可能往前往后偏移一点点依然和该采样点是一类,所以直接采用该采样点数据是不行的。对此,文章提出了一种阈值的设置方法,即取中间值。
最后多变量决策树向我们展示了经过决策树后在空间上已经具有了边界,我们只需要对这些边界进行拟合即可进行实际运用。