Decision Tree
决策树学习的三个步骤:特征选择、决策树的生成、决策树的修剪
决策树的结点:内部结点表示一个特征或属性,叶节点表示一个分类
决策树的路径或其对应的if then
规则集合满足性质:互斥且完备
决策树学习本质上是从训练数据集中归纳出一组分类规则
与训练集不相矛盾的决策树可能有很多,我们需要的是一个与训练数据矛盾较小且分化能力较强的决策树
关于剪枝:我们需要对已生成的树自下而上进行剪枝,将树变得简单,从而使其具有更好地泛化能力
- 具体地,就是去掉过于细分的叶结点,使其退回到父节点甚至更高的结点
决策树的生成只考虑局部最优,而决策树的剪枝则考虑全局最优
特征选择的准则:信息增益或信息增益比
- 信息增益 (information gain)
- 信息论中,熵(entropy)是表示随机变量不确定性的度量
- 熵越大,随机变量的不确定性就越大
- 信息增益表示得知特征X的信息而使得类Y的信息不确定性减少的程度
- g(D,A) = H(D) - H(D|A) 【特征A对训练集D的信息增益】
- H(D) 和 H(D|A) 是经验熵
- 信息论中,熵(entropy)是表示随机变量不确定性的度量
- 信息增益比
- 以信息增益划分训练集的特征,存在偏向于选择取值较多的特征的问题
- 信息增益比,把特征的取值数量纳入考虑范围