SAS DM数据准备读书笔记9(数据抽样与拆分)

分析大型数据集时,不能一下就把所有数据拿来分析,因此常常抽取一部分来测试。另外,在训练模型的时候,也常常将数据集分成3部分,训练集,校验集和测试集。

因此,抽样的方法也是必须要掌握的基础技能。讲到抽样,曾经帮深圳供电局设计过一个营业稽查抽样决策系统,里面用了很多很复杂的抽样方法,以保证各个区局所抽样本的得分能够近似整个区局的真实情况。这应该是我负责的第一个商业统计分析项目,很怀念那段一起战斗的岁月和弟兄们,可惜的是当时项目小组的人员已经都离开项目小组,各奔前程。

抽样最常用的就是随机抽样和分层抽样,SAS 关于抽样有许多PROC,包括:

PROC SURVEYSELECT

PROC SURVEYMEANS

PROC SURVEYFREQ

PROC SURVEYREG

PROC SURVEYLOGISTIC

PROC SURVEYPHREG

 

(1)简单随机抽样。待抽样数据集PopDs,抽样结果保存在SampleDS,样本数SampleSize,抽样方法SRS(简单随机抽样)

%MACRO RandomSample(PopDS, SampleDS, SampleSize);
/* This macro performes simple random sampling */
PROC SURVEYSELECT
	DATA=&PopDs 
	METHOD=srs 
	N=&SampleSize 
	NOPRINT 
	OUT=&SampleDS;
RUN;
%MEND;

 

(2)不重

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值