机器学习实战——第九章:树回归

本系列目的在于总结每一个分类器的特点(优点、缺点、使用数据类型、使用时的注意事项等)。相关代码自己搜。


python:建议使用2.7

python常用函数库:NumPy、scikit-learn等

python集成环境:anaconda


毕业季,玩了20天。


为什么需要树回归:当数据拥有众多特征并且特征之间关系十分复杂时,构建全局模 型的想法就显得太难了,也略显笨拙。而且,实际生活中很多问题都是非线性的,不可能使用全局线性模型来拟合任何数据。一种可行的方法是将数据集切分成很多份易建模的数据,然后利用第8章的线性回归技术来建模。如果首次切分后仍然难以拟合线性模型就继续切分。在这种切分方式下,树结构和回归法就相当有用。


优点:

1、可以对复杂的非线性的模型进行建模。


缺点:

1、结果不易理解。


使用数据类型:

1、离散型和标称型



使用时注意事项:

0、本章将构建两种树:第一种是9.4节的回归树( regression tree) , 其每个叶节点包含单个值,这本质是构建一个分段常数”,;  二种是9.5节的模型树(model tree),其每个叶节点包含一个线性方程,这本质是构建一个“分段线性(piecewise linear)函数”,即模型由多个线性片段组成,一般情况下,模型树比回归树预测效果好。

1、后剪枝比预剪枝更常用。如果两个分支已经不再是子树(而是叶子节点了),那么就可以进行合并。具体做法是对合并前后的误差进行比较。如果合并后的误差比不合并的误差小就进行合并操作,反之则不合并直接返回。

2、回归树误差计算:所有样本点的方差和;模型树误差计算:先使用线性模型进行拟合,再计算预测值与真实值的差值的平方和。也可以计算回归树的预测值和真实值的相关系数、模型树的预测值和真实值的相关系数,再比较。


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值