一、树回归
优点:可以对复杂和非线性的数据建模
缺点:结果不易理解
适用数据类型:数值型和标称型数据
二、概念
1、CART分类回归树(Classification And Regression Trees)
既可以用于分类,也可以用于回归
2、树构建算法比较:
ID3算法:每次选取当前最佳特征来分割数据集,按照该特征所有取值来切分,用过的特征在之后的切分中不起作用,不能直接处理连续型特征
二元切分法:每次根据数据集的某特征值与要求值的比较结果,把数据集切分成两份——左子树和右子树,可直接处理连续型特征
3、模型
回归树:叶节点包含单个值
模型树:叶节点包含一个分段线性方程
关键在于误差的计算:先用线性模型拟合,计算真实值与预测值差值,将差值平方求和
具有可解释性和更高的预测准确度
模型的比较:相关系数(R2值),R2值越接近1.0越好,NumPy中命令corrcoef(yHat, y, rowvar=0)
三、树剪枝:为了避免过拟合问题,通过降低决策的复杂度来避免过拟合
预剪枝:在树的构建过程中就进行剪枝,对容许的误差下降值和容许切分的最少样本数敏感
后剪枝:当树构建完毕再进行剪枝,将数据集分为训练集和测试集,构建出足够大和复杂的树,用测试集判断叶节点合并是否能降低测试误差,若能则合并