决策树基本知识
- 决策树:从根节点一步一步走到叶子节点(决策),所有的数据最终都会落到叶子节点。决策树既可以做分类,也可以做回归。
- 决策树的训练与测试:
- 训练阶段:从给定的训练集构造出来一棵树(从根节点开始选择特征,如何进行特征切分)
- 测试阶段:根据构造出来的模型从上到下走一遍(决策树的难点在于构造一棵决策树)
衡量标准——熵
- 熵是表示最忌变量不确定的变量
- 公式:
- 当p=0或p=1时,H=0,随机变有不确定性量完全没
- 当p=0.5时,H=1,此时随机变量的不确定性最大
- 信息增益:特征X使得类Y不确定性减少的程度(希望分类后的结果是同类在一起)