本系列目的在于总结每一个分类器的特点(优点、缺点、使用数据类型、使用时的注意事项等)。相关代码自己搜。
python:建议使用2.7
python常用函数库:NumPy、scikit-learn等
python集成环境:anaconda
毕业季,玩了20天。
为什么需要树回归:当数据拥有众多特征并且特征之间关系十分复杂时,构建全局模 型的想法就显得太难了,也略显笨拙。而且,实际生活中很多问题都是非线性的,不可能使用全局线性模型来拟合任何数据。一种可行的方法是将数据集切分成很多份易建模的数据,然后利用第8章的线性回归技术来建模。如果首次切分后仍然难以拟合线性模型就继续切分。在这种切分方式下,树结构和回归法就相当有用。
优点:
1、可以对复杂的非线性的模型进行建模。
缺点:
1、结果不易理解。
使用数据类型:
1、离散型和标称型
使用时注意事项:
0、本章将构建两种树:第一种是9.4节的回归树( regression tree) , 其每个叶节点包含单个值,这本质是构建一个“分段常数”,; 二种是9.5节的模型树(model tree),其每个叶节点包含一个线性方程,这本质是构建一个“分段线性(piecewise linear)函数”,即模型由多个线性片段组成,一般情况下,模型树比回归树预测效果好。
1、后剪枝比预剪枝更常用。如果两个分支已经不再是子树(而是叶子节点了),那么就可以进行合并。具体做法是对合并前后的误差进行比较。如果合并后的误差比不合并的误差小就进行合并操作,反之则不合并直接返回。
2、回归树误差计算:所有样本点的方差和;模型树误差计算:先使用线性模型进行拟合,再计算预测值与真实值的差值的平方和。也可以计算回归树的预测值和真实值的相关系数、模型树的预测值和真实值的相关系数,再比较。