SAS学习笔记(五)——关于样本划分

数据集可划分为训练数据集和测试数据集

划分时要注意:随机性和等比例分层(训练数据和测试数据有相同比例的目标事件)


/*进行等比例分层之前要对分层变量进行排序*/

proc sort data=data_base;

by y; /*y是目标变量*/

run;


/*surveyselect过程*/ 即设置参数的过程

proc surveyselect data=data_base

out=data_base1

samprate=.6667  /*设定分层的比例,例如训练样本为n1,测试样本为n2,那么samprate=n1/(n1+n2)*/ 

seed=1234 /*当设定为0时,每次运行surveyselect过程将产生不同的随机序列,因此每次得到的训练数据集和测试数据集都不一样;当取值大于0,就会产生

                          相同的随机序列,因此可以得到相同的训练和测试数据集*/

outall;/* 原始数据全部输出,添加标识变量1和0,分别属于训练和测试数据集*/

strata y;/*定义分层变量,使得最后的目标变量占比相同*/

run;

/*

  • 1
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值