一:模型介绍
1.线性回归的薄弱处:
1.1. 需要拟合所有的样本点(局部加权线性回归除外)但是当数据拥有众多特征并且特征之间关系十分复杂时,构建全局模型的想法就显得太难了,也略显笨拙。
1.2. 生活中很多问题都是非线性的,不可能使用全局线性模型来拟合任何数据
2.解决方案:
树回归:将数据集切分成很多份易建模的数据,然后利用我们的线性回归技术来建模。如果首次切分后仍然难以拟合线性模型就继续切分。
3.回归树与分类决策树的区别:
3.1. 回顾一下分类决策树的算法
3.1.1. 基于ID3(信息增益):
原理: 每次选取当前最佳的特征来分割数据,并按照该特征的所有可能取值来切分。也就是说,如果一个特征有 4 种取值,那么数据将被切分成 4 份。一旦按照某特征切分后,该特征在之后的算法执行过程中将不会再起作用
缺点:
1. 切分方式过于迅速
2. 不能直接处理连续型特征。只有事先将连续型特征转换成离散型,才能在 ID3 算法中使用。但这种转换过程会破坏连续型变量的内在性质
3.1.2. 基于 C4.5(信息增益比)
(1)只能分类 (2)子节点可以多分
3. 基于基尼系数的CART决策树
(1)CART算法既可以分类,也可以回归 (2)由无数个二叉子节点构成
3.2. 下面谈谈基于基尼系数的CART分类决策树的构建特点
1. 创建分类树递归过程中,CART每次都选择当前数据集中具有最小Gini信息增益的特征作为结点划分决