没错,做列联表分析的好帮手:
先给列联表定义:列联表(contingency table)是观测数据按两个或更多属性(定性变量)分类时所列出的频数表。它是由两个以上的变量进行交叉分类的频数分布表。
长什么样呢?以两个变量(定性变量)为例:
学历 | |||
本科 | 硕士 | ||
性别 | 男 | a | c |
女 | b | d |
列联表分析( contingency cable analysis)基于列联表所进行的相关统计分析与推断。列联表分析的基本问题是,判明所考察的各属性之间有无关联,即是否独立.
具体怎么做,自己百度相关数学知识。
proc freq 的参数说明
proc freq data [option];
by var;
output out=输出数据集名字,统计量的关键字;
tabels var1*var2*....;
weight var;
run;
假设是上述2×2列联表,那么tables var1*var2中var1为性别,var2为学历;
by 语句是先按照指定变量分组,使用by 那么数据集要按照by制定的变量先排序。
weight 指定的变量作为权重;
该过程输出结果有基本的变量属性汇总,当在option后加上 CHISQ(卡方测验),NEASURES(输出关联性的统计量),CMH(置信区间),ALL,ALPHA(确定显著性水平)。
对于该过程的例子,后面再展示。