SAS自学系列--SAS语句的语法

        SAS是现今非常流行的数据分析和数据挖掘软件,想从事数据分析行业,掌握SAS很有必要。虽然SAS本身提供了丰富的人机交互界面,通过手动调用各个Menu能方便地完成数据统计分析的任务,但是,通过代码来调用各个功能模块无疑能为工作带来巨大的灵活性,并显著提高效率。

    本文主要是根据网上找到的一个电子文档《SAS语句简介》(可能是某本书的其中一章)以及朱世武老师的《SAS编程技术教程》整理而成。

    SAS 程序通常分为数据步和过程步,一段SAS 程序根据目的和需要可以有0到多个数据步(Data)和0到多个过程步(Proc),还可以有系统选项语句、ODS语句等全局语句。

        1.数据步(Data Step)

        以关键词Data 开头,可由多条语句构成,结束标志可以是空语句、Run 语句、过程步或下一步数据步。

          数据步功能有:

    (1)从外部文件中读取数据;

    (2)将数据写入到外部文件中;

    (3)读取SAS数据文件和视图;

    (4)创建SAS数据文件和视图。

    2.过程步(Proc Step)

    以关键词Proc 开头,可由多条语句构成,结束标志是Run或Quit 语句。过程步的功能有:

    (1)调用 SAS 过程(SAS Procedures)分析和处理SAS数据集形式的数据,或执行其他分析;

    (2)将分析结果以报表、图表的形式输出,或输出成 SAS数据集、外部文件;

    (3)生成SQL查询;

    (4)数据操作和管理。

    下面是一段代码示例,通过注释可以看出怎样写SAS语句。

1 /****************************\

2 | 10名学龄儿童的身高体重资料 |

3 \****************************/            /*这三行都是注释,SAS中的注释跟C语言一样,是用/*和*/来包括的*/

4 OPTIONS nodate number=0;                    /*系统选项语句,nodate参数指定不在结果标题中显示时间,number=0也可以写成nonumber,指定不在标题中显示页数*/

5 DATA SASTJFX48_1;                                   /*数据步,以Data开始,SASTJFX48_1是用户自定义的SAS数据集的名字*/

6   INPUT name $ height weight @@;        /*INPUT创建变量、读取数据值、给变量赋值的语句,name,height,weight是用户自定义变量,$表示name是字符变量,*/

                                                                           /*@@是读取数据值的指针控制符号,指定在同一个数据行可以读取2个以上的观测数据*/

7   BMI=weight/(height/100)**2;              

8 LABLE BMI=‘body mass index’;           /*通过“LABEL”语句设置变量BMI 的标签为“body mass index”*/

9 DATALINES;                                                  /*指DATALINES单独占一行,指定其后为数据行*/
10 WangHB 149.4 30.8 WuCJ 167.6 46.6    /*此处开始为数据行*/
11 ChenF 146.3 33.1 GaoSY 170.7 44.0        
12 ZhanZL 161.5 36.3 LiYZ 164.6 40.8
13 ShenJJ 155.5 36.7 ZhaoJH 158.5 35.4
14 ZhangHX 149.4 33.1 WangXS 156.4 31.8
15 ;
16 RUN;

17 ODS HTML;                                                  /*ODS为输出语句,指定以HTML语句的格式输出*/
18 PROC MEANS data=SASTJFX48_1;        /*PROC指示过程步的开始,后接过程名,MEANS为SAS过程名,’data’为数据集选项,*/

                                                                           /*指定过程步分析的数据集为SASTJFX48_1*/
19   VAR bmi;                                                    /*VAR后跟变量名,指定分析的变量*/
20   OUTPUT out=result mean=BMImean;   /*OUTPUT为将运行结果输出,out后为用户自定义的输出数据集名,mean为结果中的均数名,=后面是用户自定义的输出名*/
21 RUN;
22 PROC PRINT data=result (keep=BMImean); /*调用PRINT过程在窗口显示result数据集,keep=是数据集选项,指定保留的变量*/
23 FORMAT BMImean 4.1;               /*FORMAT规定变量的输出格式,其后是变量名和输出格式,4.1表示标准数值型数据输出格式*/
24 RUN;

ODS HTML CLOSE;                            /*与17行的ODS成对出现的语句,指示关闭HTML格式的输出*/

 

    3.SAS程序书写规则

    SAS程序在书写的时候要遵循如下几点规则:

    (1)每条SAS语句以分号(;)结尾;

    (2)SAS语句可以从任何一行、任何一列开始,一行上可以写多条SAS语句;
    (3)一条SAS语句可以写在多行上,但不能把一个语法单位分开写在不同的行上;
    (4)一般情况下,一条语句中不同的语法单位要用空格或换行符分隔,但是一些字符的前方或后方,可以不用空格分隔,SAS可以自动分析语句结构、识别语法单位;

    (5)SAS语句书写不区分字母的大小写,但在一些特殊场合除外。

    4.SAS的注释

    下面的一幅图片很好的解释了SAS的注释语句。

 

image

        5.SAS命名规则

    SAS要遵循如下的命名规则:

    (1)SAS 名以字母或下划线开头,后续字符可以是字母、数字或下划线(同C语言);
    (2)SAS 名依据其使用的场合有一定长度限制,有的部位的SAS 名至多有32 个字节长度,有的部位的SAS 名至多有8 个字节长度;

    (3)SAS 名不区分大、小写,例如BMI、Bmi、bmi 在SAS 名中都是一个词;
    (4)SAS 名中不能出现空格,并且SAS 名中除了字母、数字、下划线外,不能含有其他特殊字符,如#、$、@、%等特殊字符不能出现在SAS 名中;
    (5)SAS 保留了一些自动变量名及变量列表、SAS 数据集名和逻辑库引用名;

        6.SAS变量

    编程语言一般都离不开变量。变量相当于一个容器,用来保存一定结构的数据。SAS变量除了具备常规编程语言所具备的许多共性外,也有一些自己的特点,下面主要讲述它特别的地方:

    (1)SAS中只有两种数据类型--数值型和字符型。变量后加美元号表示该变量时字符型,美元号可以紧跟变量名后面,也可以空格。

    (2)变量默认长度为8个字节,通常一个普通英文字符占一个字节,一个汉字占两个字节;用户可以用Length,Attrib语句修改变量的长度。如果变量第一次出现在表达式左边,则变量长度与表达式右边的结果值的长度一致。

    (3)输出格式:字符型变量默认输出格式是“BEST16.”,数值型变量默认的输出格式是“$w.”,可以用Format,Attrib语句或者Format过程定义或修改变量的输出格式。

    (4)变量次序:指数据步创建或定义变量的次序。

    (5)索引类型:决定这个变量是否是数据集索引的一部分的属性。这个属性可以用Contents 过程的‘OUT=’选项进行定义和修改。

    7.SAS运算符

    8.SAS文件系统

    (1)逻辑库

    逻辑库名是SAS名,长度不能超过8B。建立SAS逻辑库的语句:

    LIBNAME libref <engine> ‘SAS-data-library’

    语法说明:

    libref:逻辑库名

    SAS-data-library:逻辑库对应的物理地址

    engine:引擎名称(缺失时是默认引擎)

    逻辑库又分为临时库和永久库:临时逻辑库指的是内容只在启动SAS时存在,一旦退出SAS时内容完全被删除。系统默认临时逻辑库是work,引用临时库work中的文件时,可以不加库名。永久库当然在SAS关闭后仍旧保留。

    (2)数据集

    SAS数据集分为两类:SAS数据文件和SAS数据视图。SAS数据文件同时描述信息和存储数据值,SAS视图并不实际存储数据,它相当于一个查询语句。

    (3)数据集选项

    数据集选项用在SAS数据集名称后的括号中,多个选项之间用空格隔开。括号中的数据集选项的作用:
    重新命名变量;

    选择需要的观测;

    输出数据集中保留或删除的变量;

    数据集加密。

    语法格式:

    Data-set-name(Data-set-options)

    (option-1=value-1<…option-n=value-n>)

例子:
    data scores(keep=team game1 game2 game3);

    /*scores中保留team, game1, game2, game3四个变量*/

    proc print data= new(drop=year);   /*去掉变量year*/

    set old(rename=(date=Start_Date)); /*将date改名*/

   

 

转载于:https://www.cnblogs.com/superhuake/archive/2012/07/17/2594841.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值