文章目录
0.前言
1.决策树模型和学习
决策树模型
内部结点表示一个特征或者属性,叶结点代表一个类。
决策树与if-then规则
决策树从根结点到叶结点的每一条路径代表一个if-then规则集合,其互斥且完备。
决策树与条件概率分布
将特征空间划分为互不相交的单元,在每个单元上定义一个类的概率分布,构成一个条件概率分布。
决策树的每一条路径对应一个划分单元,条件概率分布由各个单元给定条件下类的条件概率分布组成。
决策树学习
学习的目标:根据给定的训练集构建一个决策树模型,能够对实例进行正确的分类。
本质:是从训练数据中归纳出一组分类规则,选择其中分类正确率较高的那个,同时需要很好的泛化能力;是由训练集估计条件概率模型。
损失函数:正则化的极大似然函数。
学习策略:损失函数最小化。
这里对学习过程不再赘述,后面会有形式化的算法介绍。大致就是一个启发式方法,递归的选择最优特征对数据集进行分割。
学习到的决策树的泛化能力可能不强,即过拟合,我们要