sas统计分析学习笔记(二)

本节例子数据集如下

SUBJECTGENDERHEIGHTWEIGHT
1M68.5155
2F61.299
3F63115
4M70205
5M68.6170
6F65.1125
7M72.4220
8M 188

建立数据集
DATA HTWT;
INPUT SUBJECT GENDER $ HEIGHT WEIGHT;
DATALINES;
1   M	68.5	155
2	F	61.2	99
3	F	63	    115
4	M	70	    205
5	M	68.6	170
6	F	65.1	125
7	M	72.4	220
8	M	.       188
;

一.proc means过程

1.使用列表输入法时,必须用句点(.)占位表示缺失值。

2.proc means的一些常用选项如下

N计算统计量的观测值数量NMISS缺失统计量的数量
MEAN算数平均数MEDIAN中位数
STD样本标准差STDERR标准误
CLM平均数上下95%的双侧置信区间LCLM平均数以下95%的单侧置信区间
UCLM平均数以上95%的单侧置信区间MIN最小值
MAX最大值SUM求和
VAR方差Q1第一四分位数
Q3第三四分位数CV差异系数
SKEWNESS偏系数KUPROSIS峭度系数
Tt检验统计量PRT零假设下,获得一个更大t的绝对值的概率
MAXDEC=N保留n位小数  

3.操作:

PROC MEANS DATA=HTWT N MEAN STD STDERR NMISS CLM MAXDEC=3;
TITLE "Simple Descriptive Statistics";
VAR HEIGHT WEIGHT;
RUN;
输出结果:


平均数的标准误用来表示平均数的“置信区间”。在本例中,我们可以用平均值作为对所有学生的身高体重估计值,而标准误用来告诉我们这个估计值离真值有多远。如果总体人群大致处于正态分布,样本平均数有68%的机会落在真值的一个标准误(1.514)内,有95%的可能落在两个标准误内。使用CLM选项,PROC MEANS 直接计算出平均数的95%置信区间。

二.PROC UNIVARIATE过程

1.可计算的选项
未缺失的观测值、平均数、标准差、方差、偏系数、峭度系数、差异系数、未校正和校正的平方和、t检验、最大最小值、四分位数、四分位差、众数、第1,5,10,90,95,99的百分位数、5个最大最小值(univariate过程会输入以上结果)、茎叶图和箱线图(在univariate过程后加plot)、正态概率图,正态性检验(加normal)。

2.NEXTROBS=n,显示n个极大值极小值。
PROC UNIVARIATE DATA=HTWT NEXTROBS=3 NORMAL PLOT ;
VAR HEIGHT;
RUN;

3.直方图、分位数图和概率图
用HISTOGRAM语句生成直方图,若再加入NORMAL选项,则可以在直方图上进一步生成正态曲线。

PROC UNIVARIATE DATA=HTWT NEXTROBS=3 NORMAL PLOT ;
VAR HEIGHT;
HISTOGRAM HEIGHT / MIDPOINTS=60 TO 75 BY 5 NORMAL;
INSET MEAN='Mean'(5.2)
      STD='Standard Deviation'(6.3)/FONT='Arial'
	                                POS=NW 
									HEIGHT=3;
RUN;
INSET语句表示加入一个表格,显示指定的统计量,括号里的(5.2)、(6.3)分别是平均数和标准差的显示格式(格式w.d表示宽度为w个空格,d为小数点后的位数);
POS=NW表示放置在西北角。

使用QQPLOT语句生成QQ图:
PROC UNIVARIATE DATA=HTWT;
TITLE "More Descriptive Statistics";
VAR HEIGHT;
QQPLOT HEIGHT;
RUN;
使用PROBPLOT 语句生成正态概率图:
PROC UNIVARIATE DATA=HTWT;
TITLE "More Descriptive Statistics";
VAR HEIGHT;
PROBPLOT HEIGHT;
RUN;

4.分组数据的描述统计
得到男性和女性在weight和height两个变量上的样本量、标准差和平均数。
方法一: 按照gender先排序,然后在proc means里加入一个by语句
PROC SORT DATA=HTWT;
BY GENDER;
RUN;
PROC MEANS DATA=HTWT N MEAN STD MAXDEC=2;
TITLE "THE MEANS PROCEDURE";
BY GENDER;
VAR HEIGHT WEIGHT;
RUN;
输出结果:



方法二:使用class语句代替by语句。使用class语句的好处是不必事先进行排序,但是存在多个class变量和多个水平时,class在程序上耗费更多时间。一般先试着用class,然后使用by语句。

PROC MEANS DATA=HTWT N MEAN STD MAXDEC=2;
CLASS GENDER;
VAR HEIGHT WEIGHT;
RUN;

输出结果:


5.频数分布
使用proc freq。计算频数变量不用var,用table。如果不需要自动生成累加统计量,则使用语句NOCUM屏蔽他们,如果同时删除累计百分比,则再加上NOPERCENT
PROC FREQ DATA=HTWT;
TABLE GENDER/NOCUM;
RUN;

PROC FREQ DATA=HTWT;
TABLE GENDER/NOCUM;
RUN;


6.条形图
通过 proc gchart程序生成频数条形图
GOPTIONS RESET=ALL;
         FTEXT='Arial/bo' 
		 CBACK=WHITE
		 CTEXT=BLACK
		 HPOS=25
		 GUNIT=PCT
		 HTEXT=2;
PATTERN VALUE=X1 COLOR=BLACK;
PROC GCHART DATA= HTWT;
TITLE "Bar Chart from PROC GCHART";
VBAR GENDER;
RUN;


GOPTIONS定义格式,PATTERN定义样式,AXIS语句定义行标签。(可以省略,也能得到好看的图形)
格式里,字体设置为Arial粗体,文本背景为白色,文本颜色为黑色,水平位置设置为25,文本高度为2 。
样式选择了X1(条形图中,填充十字交叉线X,SOLID实心填充,EMPTY 空心填充,L左斜线填充,R右斜线填充,后面可跟1~5的数字表示线条的密度)
行标签:AXIS1语句在中间点上做一个标记,VBAR的MAXIS表示将AXIS1的标记放在横轴中间。
AXIS1 LABEL=('DEPARTMENT');
PROC GCHART DATA=HTWT;
VBAR GENDER/MAXIS=AXIS1;
RUN;


HBAR生成水平条形图,可以使用 NOSTAT选项删除右边统计量, VBAR生成竖形条形图。

可以在HBAR或者VBAR后面加 /MIDPOINTS= a to b by c;从a到b间隔两个单位长度。如果是离散值则应在HBAR或者VBAR 后面加 /DISCRETE;

如果要分类看题中则可用group选项:
PATTERN VALUE=L2 COLOR=GREEN;
PROC GCHART DATA= HTWT;
HBAR WEIGHT/GROUP=GENDER NOSTAT;
RUN;


VBAR和HBAR 里的 SUMVAR可以计算和与平均数(跟 TYPE=MEAN)。
GOPTIONS HPOS=30;
PROC GCHART DATA=HTWT;
VBAR GENDER/ SUMVAR=HEIGHT TYPE=MEAN DISCRETE;
RUN;
TYPE=选项,选项有FREQ(频数),PCT(百分比),CFREQ(累加频数),CPCT(累加百分比),SUM(总和),MEAN(平均数)

VBAR和HBAR 里的 SUBGROUP将指定变量的的每个水平值在条形图中用不同颜色或者填充形式呈现。

7.散点图
SYMBOL VALUE=DOT COLOR=BLUE;
PROC GPLOT DATA=HTWT;
TITLE "SCATTER PLOT OF WEIGHT BY WEIGHT";
TITLE2 "USING ALL THE DEFAULTS";
PLOT WEIGHT*HEIGHT;
RUN;
value除了dot还有 SQUARE(方块)、CIRCLE(圆圈)、PLUS(加号)、TRIANGLE(三角形)





分组画散点图当用plot时:

PROC SORT DATA=HTWT;
BY GENDER;
RUN;
PROC PLOT DATA=HTWT;
BY GENDER;
PLOT WEIGHT*HEIGHT;
RUN;
会得到两个分开的散点图。


当用gplot时:使用两个symbol语句,选择男性女性的绘图记号。

SYMBOL1 VALUE=PLUS COLOR=BLACK;
SYMBOL1 VALUE=SQUARE COLOR=BLUE;
PROC GPLOT DATA=HTWT;
PLOT WEIGHT*HEIGHT=GENDER;
RUN;

















  • 6
    点赞
  • 50
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
目  录    第1篇 统计学基础知识与SAS软件应用技巧 第1章 绪论  第1节 统计学的理论基础和研究对象  第2节 统计学的任务和作用  第3节 统计学的主要内容  第4节 学习统计方法的捷径  第5节 统计资料的类型  第6节 数据结构与统计方法的匹配  第7节 几个重要的统计名词 第2章 试验设计入门  第1节 试验设计的意义、要素、原则和原理  第2节 试验设计原则的实施办法  第3节 试验设计类型的概述 第3章 统计描述  第1节 统计表  第2节 统计图  第3节 平均指标──度量定量指标的平均水平(或集中趋势)  第4节 变异指标──度量定量指标的变异程度(或离散趋势)  第5节 随机变量及其概率  第6节 平均指标与变异指标的结合使用  第7节 分位数──描述偏态资料的情况和离散趋势  第8节 正态性检验  第9节 相对数──对定性资料进行统计描述 第4章 SAS软件应用入门  第1节 SAS软件简介  第2节 应用SAS的捷径  第3节 使用SAS必须了解的几个基本概念  第4节 使用SAS必须掌握的几组重要命令  第5节 实际运行SAS的步骤 第5章 SAS实用程序编写技巧  第1节 数据步流程  第2节 创建数据集的途径  第3节 建立数据集的技巧 第6章 用SAS软件实现简单的统计分析  第1节 用SAS实现单变量统计分析  第2节 用SAS语言编程求小样本率的置信区间 第7章 用SAS/GRAPH模块绘制常用统计图的方法  第1节 条图、圆图和直方图  第2节 散布图、普通线图和半对数线图    第2篇 试验设计与定量资料的统计分析 第1章 基本概念与方法的概述  第1节 假设检验中有关的基本概念  第2节 定量资料统计分析方法的概述 第2章 单组、配对和成组设计及其资料的统计分析  第1节 单组设计及其统计分析  第2节 配对设计及其统计分析  第3节 成组设计及其统计分析  第4节 本章几种试验设计类型的鉴别  第5节 统计资料的类型  第6节 数据结构与统计方法的匹配  第7节 几个重要的统计名词 第3章 误差固定的方差分析设计类型及其定量资料的统计分析  第1节 方差分析的应用场合、基本思想和前提条件  第2节 单因素K(K≥3)水平设计及其资料的统计分析  第3节 配伍组设计及其资料的统计分析  第4节 交叉设计及其资料的统计分析  第5节 拉丁方设计及其资料的统计分析  第6节 不完全拉丁方设计及其资料的统计分析  第7节 希腊拉丁方设计及其资料的统计分析  第8节 析因设计及其资料的统计分析  第9节 含区组因素的析因设计及其资料的统计分析  第10节 正交设计及其资料的统计分析 第4章 误差变动的方差分析设计类型及其定量资料的统计分析  第1节 平衡不完全区组设计及其资料的统计分析  第2节 单因素K(K≥3)水平设计及其资料的统计分析  第3节 系统分组(或嵌套)设计及其资料的统计分析  第4节 裂区(或分割)设计及其资料的统计分析  第5节 具有重复测量设计及其资料的统计分析 第5章 多个均数或均值向量之间的多重比较  第1节 有关的名词概念和符号的含义  第2节 具有显著性的单因素各水平之间的多重比较  第3节 具有显著性的交互作用项各水平之间的多重比较    第3篇 试验设计与定性资料的统计分析 第1章 2×2表资料的假设检验  第1节 试验设计及资料的表达格式  第2节 分析2×2表资料的常用公式及应用条件  第3节 应用举例  第4节 对列研究和病例─对照研究资料的分析 第2章 R×C表资料的统计分析  第1节 R×C表资料的分类  第2节 双向无序R×C表资料的统计分析  第3节 单向有序R×C表资料的统计分析  第4节 双向有序且属性不同的R×C表资料的统计分析  第5节 双向有序且属性相同的R×C表资料的统计分析  第6节 R×C表资料的分割  第7节 精确分割卡方值及其自由度的方法 第3章 高维列联表资料的统计分析  第1节 用合并法把3维表压缩成2维表  第2节 定性资料的对数线性模型分析  第3节 定性资料的logistic回归分析    第4篇 试验设计与回归分析 第1章 回归分析的种类与简单回归分析  第1节 回归分析的任务和种类  第2节 直线回归与相关分析的概念和要点  第3节 直线回归与相关分析的计算和应用  第4节 具有重复试验数据的直线回归分析  第5节 加权直线回归的应用──半数效量的估计  第6节 可直线化的简单曲线拟合  第7节 一般多项式曲线拟合  第8节 非线性曲线拟合  第9节 再用1个实例复习曲线拟合的全过程 第2章 多元线性回归分析  第1节 多元线性回归分析的概述  第2节 应用举例  第3节 变量筛选方法  第4节 回归诊断  第5节 用各种筛选变量方法编程的技巧  第6节 与回归分析有关的重要统计术语和统计量的注解 第3章 协方差分析  第1节 协方差分析的概述  第2节 一元协方差分析应用举例  第3节 多元协方差分析应用举例 第4章 直接试验设计与回归分析  第1节 回归分析试验设计方法的发展  第2节 各因素水平数相同时的直接试验设计  第3节 各因素水平数不同时的直接试验设计  第4节 关于直接试验设计的几点说明与解释  第5节 直接试验设计的SAS源程序  第6节 直接试验设计SAS程序的运行  第7节 应用举例  第8节 设计矩阵均匀性函数简介    第5篇  生 存 分 析析 第1章 基本概念  第1节 生存资料的特点  第2节 生存时间函数  第3节 生存分析方法的分类 第2章 生存资料的非参数统计方法  第1节 统计描述与非参数分析概述  第2节 用LIFETEST过程实现统计计算  第3节 生存资料非参数统计方法中的有关计算公式 第3章 COX模型回归分析  第1节 COX回归模型(半参数回归模型)  第2节 COX模型回归分析应用举例 第4章 参数模型回归分析  第1节 参数回归模型  第2节 参数模型回归分析应用举例    第6篇 多 元 统 计 分 析 第1章 主成分分析  第1节 基本概念与数据结构  第2节 主成分的表达式与性质  第3节 用PRINCOMP过程实现主成分分析  第4节 合成资料的主成分分析 第2章 因子分析  第1节 基本概念  第2节 因子模型  第3节 因子分析的基本定理与任务  第4节 用FACTOR过程实现因子分析 第3章 对应分析  第1节 方法的概述  第2节 对应分析中的变量变换方法  第3节 用CORRESP过程实现对应分析 第4章 聚类分析  第1节 方法的概述  第2节 用VARCLUS过程实现变量聚类分析  第3节 用CLUSTER过程实现样品聚类分析  第4节 用FASTCLUS过程实现大样本样品聚类分析  第5节 用ACECLUS过程对需作样品聚类分析的资料进行预处理  第6节 用SAS/GRAPH模块绘制样品聚类图的SAS程序 第5章 判别分析  第1节 离散(定性)资料的判别分析  第2节 定量资料的逐步判别分析(考虑变量筛选)  第3节 一般判别分析(不考虑变量筛选) 第6章 典型相关分析  第1节 方法的概述  第2节 用CANCORR过程实现典型相关分析         全书附录 附录1 各篇练习题及参考答案   第1篇练习题   第2篇练习题   第3篇练习题   第4篇练习题   第5篇练习题   第6篇练习题   第1篇参考答案   第2篇参考答案   第3篇参考答案   第4篇参考答案   第5篇参考答案   第6篇参考答案 附录2 统计用表及产生这些表所需的SAS程序   2.1 统计用表   表2.1 t、r、rs、χ2临界值   表2.2 F临界值(方差齐性检验用,双侧概率为0.05)( )   表2.3 F临界值(方差分析用,单侧概率为0.05)( )   表2.4 F临界值(方差分析用,单侧概率为0.01)( )   2.2 产生上述表所需的SAS程序   产生t临界值表所需的SAS程序━TLJZ.PRG   产生χ2临界值表所需的SAS程序━KFLJZ.PRG   产生F临界值表所需的SAS程序━FLJZ.PRG 附录3 估计样本含量的常用公式 附录4 三个常用的离散型随机变量的概率 附录5 与SAS软件有关的内容   5.1 SAS表达式简介   5.2 SAS函数简介   5.3 SAS语句简介   5.4 SAS过程简介   5.5 SAS命令简介   5.6 SAS中宏知识简介 附录6 中英文对照索引 附录7 参考文献

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值