数据集可划分为训练数据集和测试数据集
划分时要注意:随机性和等比例分层(训练数据和测试数据有相同比例的目标事件)
/*进行等比例分层之前要对分层变量进行排序*/
proc sort data=data_base;
by y; /*y是目标变量*/
run;
/*surveyselect过程*/ 即设置参数的过程
proc surveyselect data=data_base
out=data_base1
samprate=.6667 /*设定分层的比例,例如训练样本为n1,测试样本为n2,那么samprate=n1/(n1+n2)*/
seed=1234 /*当设定为0时,每次运行surveyselect过程将产生不同的随机序列,因此每次得到的训练数据集和测试数据集都不一样;当取值大于0,就会产生
相同的随机序列,因此可以得到相同的训练和测试数据集*/
outall;/* 原始数据全部输出,添加标识变量1和0,分别属于训练和测试数据集*/
strata y;/*定义分层变量,使得最后的目标变量占比相同*/
run;
/*