1.SAS 数据步(DATA STEP)执行逻辑
a)程序编译:在此阶段SAS会先对DATA步的每个语句(STATEMENT)进行检查,大部分的程序编写错误会阻止SAS进入到程序执行阶段,如果每个语句检查无误,SAS则会进行到程序执行阶段,编译完成则SAS已知数据集名称、列数、行数、变量名称和格式。
b)程序执行:在该阶段SAS对读入每行数据创建数据向量(program data vector ),数据向量的初始值均为缺失,DATA 步每一次只读取一行记录,将该行添加至数据向量,在数据向量内执行DATA步语句,直至所哟行被读入完成;数据向量内会提前设置两个变量_N_指示DATA步从开始到现在执行多少次,_ERROR_指示执行该行数据是否有错,无错默认为0,有错默认为1;
当遇到input 和变量名时会为该数据向量创建变量名(“插槽”),该变量名的长度和类型、格式如果没有提前定义则会由执行第一行数据时候的长度、类型和格式来决定:
INPUT 指针,当使用input 语句和column input形式如 INPUT ID 1-4,SAS会将读入的每一行数据用指针标识位置,读入该数据后会将指针放置该数据结束列的下一位。
c)在数据执行阶段_N_=1和_ERROR_=0,初始的数据都被设置为空缺,数值设置为".";
d) 如果数据是从外部文件读取则每次DATA步完成,会将数据向量行输出至新的SAS数据集,并将数据向量内的变量值赋值为缺失,指针会再次从第1位开始; 如果是从set 语句读入SAS数据集,只在第一次将数据向量内的变量值视为缺失,其余情况均保留上一次循环的数据直到新的数据覆盖。每次DATA步结束数据向量内的_N_加1,_ERROR_保持为0;特殊情况:
如果是从外部文件读取数据,用 retain 、SUM 、_TEMPORARY_ 、FILE或者INFILE语句定义的变量和自动变量会在数据向量中保留上一次循环的数据。
2.ERROR 发生逻辑
ERROR可以在编译过程中发生,识别语句的拼写错误,也可以在执行阶段发生,变量名、数据名、数据类型等发生错误,均是在执行阶段发生,如果是数据错误,则会在日志中生成数据向量(program vector data)的内容。
3.PUT 语句
DATA步的PUT语句可以将字符串、变量名、自动变量_N_和_ERROR_、或者自动变量_ALL_(表示所有变量名)输出至日志中,如:
PUT "CAHR"; 把字符串“CHAR”输出至日志;
PUT CODE;把变量名CODE的值输出至日志;
PUT CODE=;把变量名和值同时 输出至日志;
PUT _ALL_ 把所有变量名和值都输出至日志;
PUT语句还可以与IF ELSE 语句连用,输出有问题或疑问的变量名和数值: