一、抽样代码:
场景:按DEVICE_TYPT、TARGET字段分层抽样,且3、7分数据集分别作为test和train。
PROC SORT DATA =DATA;BY DEVICE_TYPT TARGET;RUN;
PROC SURVEYSELECT DATA=DATA OUT=VAR_DATA METHOD=SRS SAMPARETE=0.7 OUTALL;
STRATA DEVICE_TYPT TARGET;
RUN;
注:加OUTALL 会显示分层结果字段 SELECTED,SELECTIONPROB,SAMPLINGWEIGHT,其中SELECTED=1是抽取数据集0.7这部分,其他为0.3这部分。
PROC SURVEYSELECT
DATA= * 输入数据集;
OUT= * 输出数据集;
METHOD= * 抽样方法;
SAMPSIZE= * 选择项指定需要抽样的样本量;
SAMPRATE= * 选择项指定需要抽样的样本量占比;