#SAS统计分析-描述性统计

关于统计性统计的基础概念之前就大致有整理过了,想要回顾的可以点击:

0?wx_fmt=png

这个主题的文章会侧重于sas关于统计分析的应用的学习整理与讲解,过程中也会补充一些比较重要的统计分析概念。

1. 随机变量及概率分布

在之前的什么总体,个体,样本,简单随机抽样,连续or分类变量,统计量,自由度等概念就不说了,而关于概率分布,我还是再简单提及一下。

1)伯努利试验&二项分布

最简单的随机试验是只有2种试验结果的随机试验,也称之为伯努利试验。我们假设该项试验独立重复地进行了n次,那么就称这一系列重复独立的随机试验为n重伯努利试验,或称为伯努利概型。

0?wx_fmt=png

二项分布就是重复n次独立的伯努利试验。在每次试验中只有两种可能的结果,而且两种结果发生与否互相对立,并且相互独立,与其它各次试验结果无关,事件发生与否的概率在每一次独立试验中都保持不变,则这一系列试验总称为n重伯努利实验,当试验次数为1时,二项分布服从0-1分布。

一般地,在n次独立重复试验中,用ξ表示事件A发生的次数,如果事件发生的概率是p,则不发生的概率 q=1-p,N次独立重复试验中发生k次的概率是:P(ξ=K)=0?wx_fmt=png

(K=0,1,2,3,…n),那么就说ξ服从二项分布,其中P称为成功概率,记作:ξ~B(n,p)。

(1)二项分布的期望:Eξ=np;

(2)二项分布的方差:Dξ=npq。

2)柏松分布(poisson distribution)

柏松分布常用来描述单位时间内随机事件发生的次数,是一种统计与概率学里常见到的离散机率分布(discrete probability distribution)

泊松分布的概率函数为:

0?wx_fmt=png

泊松分布的参数λ是单位时间(或单位面积)内随机事件的平均发生率。 泊松分布适合于描述单位时间内随机事件发生的次数,泊松分布的期望和方差均为 入 。

3)正态分布(normal distribution)

正态分布(Normal distribution),也称“常态分布”,又名高斯分布(Gaussian distribution),正态曲线呈钟型,两头低,中间高,左右对称因其曲线呈钟形,因此人们又经常称之为钟形曲线。

0?wx_fmt=png

正态分布是随机变量X服从数学期望为μ、方差为σ^2的分布,记为N(μ,σ^2)。其第一参数μ是遵从正态分布的随机变量的均值,第二个参数σ2是此随机变量的方差,所以正态分布记作N(μ,σ2 )。

遵从正态分布的随机变量的概率规律为取 μ邻近的值的概率大 ,而取离μ越远的值的概率越小;σ越小,分布越集中在μ附近,σ越大,分布越分散。

正态分布的密度函数的特点是:关于μ对称,在μ处达到最大值,在正(负)无穷远处取值为0,在μ±σ处有拐点。当μ = 0,σ = 1时的正态分布是标准正态分布。

2. 描述性统计量

抽取合适的样本后,在利用样本数据对总体进行判断统计之前,有必要对样本数据进行探索。一方面,能及时发现样本数据中的问题,如缺失,异常;另一方面,也可以观测数据的分布情况。

描述性统计量主要分为3类:

1)描述数据集中趋势:如均值,中位数,众数等

2)描述数据离散程度:如方差,标准差,变异系数,极差,四分位数等

3)描述数据分布情况:如偏度系数,峰度系数,百分位数,直方图,箱线图,正态概率图等

以上提及的几个常见的统计量,有些大家都是非常熟悉了,我就总结整理一下可能会比较陌生的统计量吧。(下面的统计量就不分类了)

(1)变异系数

变异系数是一种不受单位影响的表示数据离散趋势的指标,特别适合于在两种情况下(各组数据的单位不完全相同时,或者各组数据间的均值相差悬殊时)比较各组间变异程度的大小,一般用CV来表示。

CV=s/x,即标准差与均值之比。当CV值小时,均值代表性就大,反之,均值代表性就不大。

(2)偏度系数&峰度系数

统计量偏度系数(skewness)和峰度系数(kurtosis)正是用来刻画数据的分布状态的,偏度系数是用来描述分布是对称分布还是偏向某一侧,峰度系数是用来描述分布是向中心位置集中还是向两侧集中。

偏度系数:正态分布的偏度系数为0,若小于0,数据分布侧向于数据小的一侧,数据的均值小于中位数,称数据呈负偏态分布或左偏分布;反之,则为正偏态分布或右偏分布。

峰度系数:当峰度系数小于0,称为低峰分布,若分布是对称的,则相比正态分布,数据呈现出“薄尾”,较少的数据分布在两端,称之为薄尾分布;反之,分布称之为尖峰分布,以及厚尾分布。

(3)正态概率图

用于检查一组数据是否服从正态分布的图形,是实际数据与正态分布分位数之间函数关系的散点图。如果一组数据服从或接近正态分布,则正态概率图将会是一条直线。

3.描述性统计量在sas中的实现

1)UNIVARIATE过程

UNIVARIATE过程的基本功能如下:

  • 描述性统计分析,涉及偏度、峰度、分位数的计算,频率表的绘制和变量极端值分析等。

  • 常用统计图形的绘制,包括直方图、概率分布累积图和Q-Q图等。

  • 数据的正态性检验。

在SAS系统中,UNIVARIATE单变量过程的基本格式为:

  1. PROC UNIVARIATE [选项] ;   

  2. BY变量列表;   

  3. CDFPLOT变量列表 [选项];   

  4. CLASS 变量列表;   

  5. FREQ 变量;   

  6. HISTOGRAM 变量列表 [选项];   

  7. ID 变量;   

  8. OUTPUT [out=输出数据集名] [统计量关键字=变量名];  

  9. QQPLOT 变量列表 [选项];   

  10. VAR 变量列表;   

  11. WEIGHT 变量;  

其中:

PROC语句用于指定使用UNIVARIATE过程进行描述性统计分析,同时,在该语句后常用的选项介绍如下

DATA=数据集名:指定需要分析的数据集。

PLOT或PLOTS:绘制茎叶图、盒式图和正态概率图。

FREQ:生成频数分布表。

NORMAL:对输入变量进行正态性检验。

BY语句用于指定分组的变量,在组内对数据进行描述性分析。

CDFPLOT语句用于控制概率分布累积图的绘制。

CLASS语句的用法基本同BY语句,用于指定分组的变量。

FREQ语句用于指定代表观测频数的变量。

HISTOGRAM语句用于控制直方图的绘制。

ID语句用于指定数据集中识别观测的变量。

OUTPUT语句用于建立一个新的数据表,存放分析的结果。

QQPLOT语句用于控制Q-Q图的绘制。

VAR语句用于指定UNIVARIATE过程分析的变量。

WEIGHT语句用于指定代表观测权重的变量。

UNIVARIATE 程序内有二十六个统计值:

统计值及对应含义

  • N 非缺失值个数

  • NMISS 缺失值个数

  • NOBS 观察体总数

  • MEAN 平均数

  • SUM 变量值的总和

  • STD 标准差

  • VAR 变异系数(标准误)

  • SKEWNESS 偏度

  • KURTOSIS 峰度

  • SUMWT 所有观察体在

  • WEIGHT 变量上的总和

  • MAX 变量的最大值

  • MIN 变量的最小值

  • RANGE 最大值减去最小值所得的差

  • Q3 第三个四分位数

  • MEDIAN 中位数 (第 50 的百分位数)

  • Q1 第一个四分位数

  • QRANGE Q3 减去 Q1 之差

  • P1 第 1 的百分位数

  • P5 第 5 的百分位数

  • P10 第 10 的百分位数

  • P90 第 90 的百分位数

  • P95 第 95 的百分位数

  • P99 第 99 的百分位数

  • MODE 众数如果有不只一个众数取最小值的那一个

  • SIGNRANK 等级符号检定法 (The Signed Rank Statistic Lehmann 1975)

  • NORMAL 常态分配的检定 (Test Statistic for Normality)若观察体个数少于 51 则采用Shapiro-Wilk 的 W Statistic 的方法检定否则采用用 Kolomogorov

2)MEANS过程

主要功能:

The MEANS procedure provides data summarization tools to compute descriptive statistics for variables across all observations and within groups of observations(计算描述性统计量,比如均值方差等,还可以用来做置性区间的计算) 

常用用法:

  • calculates descriptive statistics based on moments 计算基于矩的描述性统计量,如均值、方差、标准差、偏度、峰度

  • estimates quantiles, which includes the median 计算分位数

  • calculates confidence limits for the mean  计算均值的置性区间

  • identifies extreme values 极值

  • performs a t test t检验

基本语法:

proc means <option(s)> <statistic-keyword(s)>;

  by <descending> variable(s);

  class variable(s) <option(s)>;

  freq variable;

  id variable(s);

  output <out = dataset> <output-specification(s)>;

  types request(s);

  var variable(s);

  ways list;

  weight variable;

直接运行 proc means过程时,会对所有数值型变量进行操作,得到各变量的非缺失观测数N,均值MEAN,标准差STD DEV,最大值Max和最小值Min。

 <option(s)>常用项:

data=<制定输入的数据集>

(field width)fw=<specifies the field width to display the statistics in printed or displayed output>

maxdec=<specifies the maximum number of decimal places to display the statistics in the printed or displayed output>

missing= <If you omit MISSING, then PROC MEANS excludes the observations with a missing class variable value from the analysis>

noobs noprint

NWAY:specifies that the output data set contain only statistics for the observations with the highest _TYPE_ and _WAY_ values,使输出数据集中包含_type_和_way_的最大值

 <statistic-keyword(s)>

默认输出统计量: std标准差、n观测个数、means均值、min/max

cv 变异系数、 stderr标准误即样本均值的方差、 css偏差平方和、vardef自由度,clm双尾置性区间,LCLM左尾置性区间,UCLM右尾置性区间,

ALPHA=default0.05 (1-置信度)。

 

Types语句:规定输出结果的分组类型和顺序,其中的变量一定要在class语句中,和class语句中变量的顺序有关

例如class a b c;则 type () a b a*b c a*c b*c a*b*c的type值分别为0 1 2 3 4 5 6 7,type值决定其输出顺序,不同的type类型有些类似tabulate中的table语句,规定以何种变量为分组类型输出; 

by语句:必须先排序才能用by语句,by语句进行的分组在输出时会输出两个表,而class不会

 

var语句:规定需要分析的变量

 

ID语句:取对应变量的最大值放入数据集;

 

output语句:规定输出数据集以及要输出的变量

0?wx_fmt=png

关于sas的统计分析就大概讲这些吧~很多还是要在实战中去实践会学得更快~【阅读原文】可以看到我在网路上看到的一些实例,还挺不错的~~

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值