SAS用梯度提升回归树(GBDT)迁移学习预测抵押贷款拖欠风险和垃圾电子邮件数据

拓端研究室

已于 2023-02-06 16:40:11 修改

阅读量1.5k

点赞数

分类专栏： sas 机器学习文章标签：算法

于 2022-04-11 22:49:43 首次发布

本文链接：https://blog.csdn.net/qq_19600291/article/details/124111913

版权

机器学习同时被 2 个专栏收录

229 篇文章 7 订阅

订阅专栏

sas

4 篇文章 0 订阅

订阅专栏

最近我们被客户要求撰写关于GBDT的研究报告，包括一些图形和统计输出。

GBDT梯度提升模型由多个决策树组成。预测模型的目的是根据输入预测目标值。GBDT使用已知目标值的训练数据来创建模型，然后可以将该模型应用于目标未知的观测。如果预测很好地拟合了新数据，则该模型可以很好地推广。良好的概括是预测任务的主要目标。预测模型可能很好地拟合了训练数据，但泛化性很差。

决策树 是一种预测模型已在统计和人工智能社区自主开发。GRADBOOST通过拟合一组加性树来创建预测模型。

示例：使用先前的提升模型对新数据评分

本示例说明了如何保存模型表，然后再使用模型表对数据表进行评分。

数据集来自一个研究，是否进行分类的电子邮件是垃圾电子邮件（编码为1）或否（编码为0）。数据集包含4,601个观测值和59个变量。因变量是电子邮件是否被视为垃圾邮件的二进制指示符。共有57个预测变量，用于记录电子邮件中某些常用单词和字符的频率以及大写字母的连续序列的长度。

训练一个提升模型并对训练数据表评分。

该表显示了统计信息。

输出1.1：拟合统计信息，在运行时拟合

以下语句使用以前保存的模型对新数据评分：

proc gradboost data=mil inmodel=mycst_model;
   output out=mycas.score_later;
   ods output FitStatistics=fit_later;
run;

如果目标存在于新的得分数据表中，则会看到得分数据的统计信息。在此示例中，计分的数据与训练数据相同。

输出12.1.2：拟合统计，以后拟合

此示例说明，GRADBOOST过程可以使用先前保存的增强模型对输入数据表进行评分，该模型在先前的过程运行中保存。如果要正确对新数据表评分，则一定不要修改该表 gradboost_model，因为这样做可能会使构造的提升模型无效。与对新数据进行任何评分一样，必须存在在模型创建中使用的变量，以便为新表评分。

示例：迁移学习

此示例说明了迁移学习。迁移学习通过辅助数据来增强训练数据，并尝试降低不代表原始训练数据的观察结果的影响。原始训练数据通常来自难以获得数据的目标人群。此示例在不使用迁移学习的情况下运行了GRADBOOST两次：一次包含所有数据，一次不包含辅助观测。所有模型均使用目标人群的数据（不是训练数据的一部分）进行评估。包含迁移学习的模型应该比没有迁移学习的模型更合适，尽管不如去除辅助观测的模型好。

接下来的DATA步骤将生成三个数据集：一个用于训练（包括辅助观测），一个没有训练对象的数据集，以及第三个具有训练结果的数据集。

data main mylien myest;
     array x(2)  x1 - x2;

        do i = 1 to n;
           do j = 1 to 2;
              x(j)  = rand('normal', mu);
           end;
           select(datarole);
               when(-1)  output m.test;
               when(0,1) output mytrain mynoAlien;
               when(2)   output myc.train;
           end;
           if i = nhalf then do;
              mu = -mu;
              y  = -y;

首先训练模型，然后再次将模型应用于测试数据和输出拟合统计。当所有观测值的该变量均为零时，将不进行迁移学习。

选项将向下加权延迟到树11。


  proc gradboost data=myst inmodel=mycodel;
     output out=my.score;
     ods output FitStatistics=&outfit.;
  run;

将三个模型的平均平方误差合并到一个表中。

通过模型中树的数量绘制每个模型的平均平方误差：


             scatterplot y=train_ase
                         x=trees / markerattrs=(color=blue)
                                   name='with'

表明，与迁移学习相比，迁移学习的拟合度更好，尽管不如从数据中删除所有辅助观测值时的拟合度更好。传递学习的拟合与前10棵树没有拟合的情况相同，因为在此示例中，直到树11才开始减权。

输出2.1：三种模型的ASE与树数的比较

拓端研究室

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
SAS用梯度提升回归树(GBDT)迁移学习预测抵押贷款拖欠风险和垃圾电子邮件数据

原文链接：http://tecdat.cn/?p=26177原文出处：拓端数据部落公众号GBDT梯度提升模型由多个决策树组成。预测模型的目的是根据输入预测目标值。GBDT使用已知目标值的训练数据来创建模型，然后可以将该模型应用于目标未知的观测。如果预测很好地拟合了新数据，则该模型可以很好地推广。良好的概括是预测任务的主要目标。预测模型可能很好地拟合了训练数据，但泛化性很差。决策树是一种预测模型已在统计和人工智能社区自主开发。GRADBOOST通过拟合一组加性树来创建预......
复制链接

扫一扫