回归树的原理及其 Python 实现

最新推荐文章于 2024-05-14 17:05:40 发布

Python开发者

最新推荐文章于 2024-05-14 17:05:40 发布

阅读量2.7k

点赞数 1

本文链接：https://blog.csdn.net/iodjSVf8U1J7KYc/article/details/81611588

版权

本文深入浅出地介绍了回归树的基本原理，通过逐步解析从最简单的平均值模型到运用多个变量的策略，展示了如何找到最佳分割点。此外，作者提供了一个全Python实现的回归树算法，详细阐述了实现过程，包括创建Node类、选择最佳特征和分割点、训练模型等步骤。文章以波士顿房价数据集为例，评估了模型的准确性，达到了0.801的拟合优度。

摘要由CSDN通过智能技术生成

（点击上方公号，快速关注我们）

本文来自作者「李小文」的投稿

公号平台，首发「Python开发者」

提到回归树，相信大家应该都不会觉得陌生（不陌生你点进来干嘛[捂脸]），大名鼎鼎的 GBDT 算法就是用回归树组合而成的。本文就回归树的基本原理进行讲解，并手把手、肩并肩地带您实现这一算法。

完整实现代码请参考 github： https://github.com/tushushu/Imylu/blob/master/regression_tree.py

1. 原理篇

我们用人话而不是大段的数学公式，来讲讲回归树是怎么一回事。

1.1 最简单的模型

如果预测某个连续变量的大小，最简单的模型之一就是用平均值。比如同事的平均年龄是 28 岁，那么新来了一批同事，在不知道这些同事的任何信息的情况下，直觉上用平均值 28 来预测是比较准确的，至少比 0 岁或者 100 岁要靠谱一些。我们不妨证明一下我们的直觉：

640?wx_fmt=png

1.2 加一点难度

仍然是预测同事年龄，这次我们预先知道了同事的职级，假设职级的范围是整数1-10，如何能让这个信息帮助我们更加准确的预测年龄呢？

一个思路是根据职级把同事分为两组，这两组分别应用我们之前提到的“平均值”模型。比如职级小于 5 的同事分到A组，大于或等于5的分到 B 组，A 组的平均年龄是 25 岁，B 组的平均年龄是 35 岁。如果新来了一个同事，职级是 3，应该被分到 A 组，我们就预测他的年龄是 25 岁。

1.3 最佳分割点

还有一个问题待解决，如何取一个最佳的分割点对不同职级的同事进行分组呢？

我们尝试所有 m 个可能的分割点 P_i，沿用之前的损失函数，对 A、B 两组分别计算 Loss 并相加得到 L_i。最小的 L_i 所对应的 P_i 就是我们要找的“最佳分割点”。

1.4 运用多个变量

再复杂一些，如果我们不仅仅知道了同事的职级，还知道了同事的工资（貌似不科学），该如何预测同事的年龄呢？

我们可以分别根据职级、工资计算出职级和工资的最佳分割点P_1, P_2，对应的Loss L_1, L_2。然后比较L_1和L2，取较小者。假设L_1 < L_2，那么按照P_1把不同职级的同事分为A、B两组。在A、B组内分别计算工资所对应的分割点，再分为C、D两组。这样我们就得到了AC, AD, BC, BD四组同事以及对应的平均年龄用于预测。

1.5 答案揭晓

如何实现这种1 to 2, 2 to 4, 4 to 8的算法呢？

熟悉数据结构的同学自然会想到二叉树，这种树被称为回归树，顾名思义利用树形结构求解回归问题。

2. 实现篇

本人用全宇宙最简单的编程语言——Python实现了回归树算法，没有依赖任何第三方库，便于学习和使用。简单说明一下实现过程，更详细的注释请参考本人github上的代码。

2.1 创建Node类

初始化，存储预测值、左右结点、特征和分割点

class Node(object):

    def __init__(self, score=None):

        self.score = score

        self.left = None

        self.right = None

        self.feature = None

        self.split = None

2.2 创建回归树类

初始化，存储根节点和树的高度。

class RegressionTree(object):

    def __init__(self):

        self.root = Node()

        self.height = 0

2.3 计算分割点、MSE

根据自变量X、因变量y、X元素中被取出的行号idx，列号feature以及分割点split，计算分割后的MSE。注意这里为了减少计算量，用到了方差公式：

640?wx_fmt=png

2.4 计算最佳分割点

遍历特征某一列的所有的不重复的点，找出MSE最小的点作为最佳分割点。如果特征中没有不重复的元素则返回None。

def _choose_split_point(self, X, y, idx, feature):

    unique = set([X[i][feature] for i in idx])

    if len(unique) == 1:

        return None

    unique.remove(min(unique))

    mse, split, split_avg = min(

        (self._get_split_mse(X, y, idx, feature, split)

            for split in unique), key=lambda x: x[0])