to be continued …
决策树
谈森林之前,先说一说决策树。小蓝书里说,决策树可以看作是if-then规则的集合。就是将空间用超平面进行划分,每次都一分为二,每个叶子节点(即类别)都是在空间中不相交的区域。
对于训练数据,通过信息增益information gain(ID3) or 信息增益比information gain ratio(C4.5),选择合适的特征,构建决策树模型。
随机森林RandomForest
一般来说,随着决策树深度的增长,会产生过拟合的现象。虽然剪枝可以稍微削弱这个影响,但是还是不足以避免。
用随机的方式建一个森林,多棵树投票的方式,决定最终目标输出结果。