data cleaning & management的时候往往需要识别缺失值和极端值。
导入数据后,可以使用以下语句对数据的分布进行一个粗糙的描述
proc univariate data=导入数据名 normal;
Var 测试的变量名;
histogram 测试的变量名;
probplot 测试的变量名;
run;
识别缺失值可以用以下语句
data 输出数据名;
set 导入数据名;
if 测试的变量名=. ;
proc print;
var ID 测试的变量名;
run;
识别极端值可以用以下语句(以99.9百分位为例)
proc univariate data=需要识别极端值的数据集名;
Var 测试的变量名;
output out=final_99_9
pctlpts = 99.9
pctlpre = 测试的变量名;
run;
proc print data=final_99_9 noobs;
run;