当数据拥有众多的特征并且特征之间关系十分复杂的时候,构建全局模型的想法就显得太难了,也略显笨拙。而且,在实际生活中,许多的问题都是非线性的,不可能使用全局线性模型来拟合任何数据。
一种可行的方法是将数据集划分成许多易建模的数据分片,然后利用线性回归技术在每个分片上建模。如果首次划分后的数据子集仍然很难拟合成线性模型,那么就继续划分。
分类回归树(CART)就是采用这一原理工作的,该算法既可以用来分类也可以用来回归。之前我们讲过使用决策树来进行分类,那么分类回归树和决策树相比较有什么优势呢?
决策树是一种贪心算法,通过不断将数据划分成小数据集,直到所有目标变量完全相同或者数据不能再划分为止。它要在给定时间内做出最佳选择,但并不关心能否达到全局最优。
此外,决策树中使用的树构建算法是ID3。ID3划分过于迅速,并且不能直接处理连续型特征。二元划分法是另一种树构建方法,它每次把数据集划分为两份。ID3没有二元划分法好,因为二元划分法划分速度比ID3慢些且能够处理连续型特征。ID3和二元划分法还有一个重要的区别:ID3选取当前最佳的特征划分数据,每个特征作为划分的依据最多被使用一次;而二元划分法选取当前最佳的特征划分数据,某个特征可以多次被用于划分的依据。
一种可行的方法是将数据集划分成许多易建模的数据分片,然后利用线性回归技术在每个分片上建模。如果首次划分后的数据子集仍然很难拟合成线性模型,那么就继续划分。
分类回归树(CART)就是采用这一原理工作的,该算法既可以用来分类也可以用来回归。之前我们讲过使用决策树来进行分类,那么分类回归树和决策树相比较有什么优势呢?
决策树是一种贪心算法,通过不断将数据划分成小数据集,直到所有目标变量完全相同或者数据不能再划分为止。它要在给定时间内做出最佳选择,但并不关心能否达到全局最优。
此外,决策树中使用的树构建算法是ID3。ID3划分过于迅速,并且不能直接处理连续型特征。二元划分法是另一种树构建方法,它每次把数据集划分为两份。ID3没有二元划分法好,因为二元划分法划分速度比ID3慢些且能够处理连续型特征。ID3和二元划分法还有一个重要的区别:ID3选取当前最佳的特征划分数据,每个特征作为划分的依据最多被使用一次;而二元划分法选取当前最佳的特征划分数据,某个特征可以多次被用于划分的依据。