树模型
决策树:从根节点开始一步步走到叶子节点(决策),所有的数据最终都会落到叶子节点,既可以做分类也可以做回归
树的组成
如何切分特征(选择节点)
通过熵值衡量
决策树算法
连续值处理
剪枝策略
为什么要剪枝:决策树过拟合风险很大,理论上可以完全分得开数据
(想象一下,如果树足够庞大,每个叶子节点不就一个数据了嘛)
剪枝策略:预剪枝,后剪枝
预剪枝:边建立决策树边进行剪枝的操作(更实用)
限制深度,叶子节点个数,叶子节点样本数,信息增益量等
后剪枝:当建立完决策树后来进行剪枝操作
通过一定的衡量标准(叶子节点越多,损失越大)
集成算法