SAS——列联表(复习3)

概念
列联分析解决的问题:
两个分类之间是否存在相关性
例:不同性别对颜色的喜好是否显著不同

属性变量类型(分类变量:只有有限个值)(连续型变量取值较少时也可以做属性变量使用,变量的类型不是绝对不变的.)
普通变量 (无次序)
有序变量 (距离无意义)
区间变量(连续型变量转换得来,距离有意义,无绝对0点:比率无意义)
比率变量(连续型变量转换得来,距离有意义,有绝对0点:比率有意义)

属性数据分析(Categorical data analysis): 是当目标变量为属性记录时的数据分析,不管 问题的 ***预测变量(自变量) 是否为属性或连续的。属性变量的结果通常反映属性分类的信息。
连续数据分析(Continuous data analysis):是当目标变量为连续记录时的数据分析,也不论它的预测变量是属性的或连续的。

对属性数据进行分析,将达到以下几方面的目的:
1、产生汇总分类数据----列联表;
2、检验属性变量间的独立性(无关联性) ;
3、计算有序的属性变量间的关联性统计量;
4、对高维数据进行分层分析和建模。

简单随机抽样(两个变量都随机):无关联:两变量分布独立
分层简单随机抽样(一个变量控制):无关联:男女作肯定回答的比例相等
pearson:X2 -检验法:H0: 无关联性 (观测频数=期望频数)
在这里插入图片描述
***x2统计量及相应的p-值大小并不度量关联程度的强弱(c2统计量依赖样本容量);
x2检验法的p-值是根据其大样本分布确定的。
当有20%或更多的单元格期望频数小于5时,使用它并不一定有效,应改用精确 p-值.

小样本:精确卡方
有序变量:Mentel Haenszel检验法就是针对以下假设的一种检验方法:
H0:行列变量无有序关联,
H1:行列变量存在有序关联
(xi-xj)(yi-yj)>0, 称为一致对(concordant)
(xi-xj)(yi-yj)<0, 称为不一致对(discordant)
(xi-xj)(yi-yj)=0, 称为平分对(tied)

***对有序变量,列联表中变量各测量水平必须按顺序排列,否则有序关联性的度量是不准确的.

两变量均有序:
统计量大于0,则一致(正相关),小于0则不一致(负相关),等于0,则基本无相关性
在这里插入图片描述

不要求两变量均有序:
在这里插入图片描述

对2*2列联表,还有相对风险优比率两个关联性度量.
在这里插入图片描述
***RR相对风险:前瞻性研究:组的选择在获得响应之前
0 < RR < 无限大
RR = 1 无关联

在这里插入图片描述***优比率:回顾性研究:按得到的结果分组后再考察其预测变量
OR(1)=1, 组别与结果发生的可能性大小无关联;
OR(1) > 1, A组更可能发生结果1;
OR(1) < 1, B组更可能发生结果1.

属性变量取值的频数表
PROC    FREQ   DATA=CLASS;
         tables  age;
run;

在这里插入图片描述

多个属性变量取值的交叉表
data statclas;
  input student sex $ major $ @@;
  cards;
1  男 是  2 男 非  3 女 是  4 男 非  5 女 是  6 女 是  7 男 非
8  男 非  9 男 是 10 女 是 11 男 非 12 女 是 13 男 是 14 男 是
15 男 非 16 女 是 17 男 是 18 男 非 19 女 非 20 男 是
;
proc freq data=statclas;
    tables sex*major;
    title ′统计课程中学生的专业和性别′;
run;

在这里插入图片描述

有些情况下,已经汇总并得出表格中每个单元有多少个观测.在收集数据时,也许是先建立一张表,然后将观测个数记到每个单元中,这样得到的信息.或许是使用以表格形式发表的数据.如:
在这里插入图片描述
在这种情况下,没有给出样本中每一个个体的观测数据.为了由这种类型的数据生成一张列联表,首先建立一个包含所有单元观测个数的数据集,然后使用带有WEIGHT语句的FREQ过程.

由现有的汇总表生成列联表
已经形成双向表如何输出
data penalty;
  input decision $ defrace $ numcell @@;
  cards;
是  白人  19  是  黑人  17  否  白人  141  否  黑人  149
;
proc freq data=penalty;
   tables decision*defrace;
   weight numcell;
   title ′死刑数据的列联表′;
run;

在这里插入图片描述

多层叠加数据结构读取:

PROC FREQ  DATA=数据集名 order=… noprint;      
		TABLES  分层变量*行变量*列变量.../
             nocol  norow  nocum  nofreq    
             nopercent
             missing  list  out=数据集;
      WEIGHT  变量名; %按照已经统计好的表格按照统计频数进行说明
      BY  变量名; %分组变量(性别、二元变三元)
      RUN;

order=data|internal|freq|formatted
1、按照数据集中的顺序进行统计
2、按照大小顺序
3、按照频数多少进行统计
4、按照自定义格式数据排列

列联表设计:从内到外为从左到右从下到上的分类关系(收入——性别——购买价值)

例2.3 下表记录了某公司在过去6个月中的顾客信息.其中包括顾客的性别(GEN:0=男和1=女),顾客的年龄(AGE),顾客的年收入(INCLEV:1=低,2=中和3=高)和购买价值(PURCHASE:0=小于100元,1=大于等于100元),共记录了431位顾客的资料.试用“分析员应用”或编程来生成PURCHASE(购买价值)与GEN(性别)或INCLEV(收入)的双向列联表,并进行分析.
在这里插入图片描述

DATA步读取数据
从最内层往最外层分解
***
data salesa;
  do purchase=0,1;
    do gen=0,1;
	    do inclev=1 to 3;
	      input numcell @@;
	      output;
	    end;
    end;
  end;
  cards;
35 58 37 55 40 44 8 15 38 34 31 36

以下SAS程序生成二个双向列联表
proc freq data=salesa;
  tables purchase*(gen inclev);
  weight numcell; 
run;

在这里插入图片描述

分析purchase*gen表,可以得出:
(1)查看purchase=1所在行的两个单元格中的行百分比(分别为37.65%和62.35%)可以得出:高消费(指购买100元以上者)的人群中,女性占的比例明显高于男性。而低消费(指购买100元以下者)的人群中,女性和男性所占的比例相差不大。
(2)查看gen=0(男)所在列的两个单元格中的列百分比(分别为68.06%和31.94%)可以得出:男性人群中,高消费(指购买100元以上者)的比例明显小于低消费。 而女性人群中,高消费(指购买100元以上者)的比例稍微小于低消费。

检验无关联性

大样本检验(卡方)
PROC  FREQ  DATA=数据集 ;
          TABLES  行变量*列变量/
               chisq cellchi2 /*chisq 卡方关键词 expected;
RUN;                     (ch05_04.sas)

chisq: 进行无关联性的c2检验和生成基于c2统计量的关联性度量;
cellchi2: 打印单元格的c2贡献;
expected: 打印无关联时单元格的期望频数.
小样本检验(精确p值)
PROC  FREQ  DATA=数据集 ;
TABLES  行变量*列变量/exact;
EXACT pchi ;     
RUN ;                                  

选项exact:要求计算精确的Fisher检验统计量. 
                 对于2×2表系统自动计算.
语句 exact  pchi :要求给出c2统计量的精确p-值及其它有关的关联性.

libname mylib ‘C:\Users\caida\Desktop\ex3’;
data mydata;
infile ‘C:\Users\caida\Desktop\ex3\dataset for experiment 3.txt’;
input country $20. birthrat deathrat inf_mort life_exp popurban perc_gnp lev_tech civillib;
run;

proc format;
value infantmt
low-<24 = 1
24-73 = 2
74-high = 3;
value levelmt
low-<24 = 1
24-high = 2;
value degreemt
1,2 = 1
3,4,5 = 2
6,7 = 3;
run;

data mylib.world;
set mydata;
infgrp = inf_mort;
techgrp = lev_tech;
civilgrp = civillib;
format infgrp infantmt. techgrp levelmt. civilgrp degreemt.;
run;

/*
proc means data=mylib.world P33.3 P66.7;
var birthrate deathrate popurban;
output out=stats;
run;
*/

proc univariate data=mylib.world noprint;
var birthrat;
output out=mylib.s1 pctlpts=33.3 66.7 pctlpre = p
run;
proc univariate data=mylib.world noprint;
var deathrat;
output out=mylib.s2 pctlpts=33.3 66.7 pctlpre = p
run;
proc univariate data=mylib.world noprint;
var popurban;
output out=mylib.s3 pctlpts=33.3 66.7 pctlpre = p
run;

data stats;
set mylib.s1 mylib.s2 mylib.s3;
run;

data mylib.world2;
set mylib.world;
do i=1 to 3

某咖啡店在2017年9-12月期间四类咖啡(cap, esp, ice, kon)的销量数据如下,其中window变量为顾客的代步类型(d为开车;w为步行)。

Obs date Coffee Window amount Obs date Coffee Window amount
1 2017-09 cap d 106 17 2017-11 cap d 133
2 2017-09 cap w 159 18 2017-11 cap w 147
3 2017-09 esp d 87 19 2017-11 esp d 78
4 2017-09 esp w 96 20 2017-11 esp w 130
5 2017-09 ice d 31 21 2017-11 ice d 68
6 2017-09 ice w 42 22 2017-11 ice w 42
7 2017-09 kon d 82 23 2017-11 kon d 118
8 2017-09 kon w 120 24 2017-11 kon w 66
9 2017-10 cap d 64 25 2017-12 cap d 142
10 2017-10 cap w 156 26 2017-12 cap w 109
11 2017-10 esp d 101 27 2017-12 esp d 141
12 2017-10 esp w 194 28 2017-12 esp w 142
13 2017-10 ice d 137 29 2017-12 ice d 75
14 2017-10 ice w 68 30 2017-12 ice w 71
15 2017-10 kon d 160 31 2017-12 kon d 98
16 2017-10 kon w 187 32 2017-12 kon w 114

请完成以下步骤:
(1)按月分组,并按咖啡品种和代步类型作两级分组绘制咖啡销量的直方图;
(2)分析四个月的总销量中,顾客消费的咖啡品种与代步类型是否存在关联。

关于收入水平(Income)和糖尿病的调查数据如下:

              糖尿病

收入水平 是(Y) 否(N)
低收入(low) 40 100
中等收入(moderate) 33 145
高收入(high) 10 60

检验糖尿病和收入水平两者之间是否存在关联性?()

在这里插入图片描述

在这里插入图片描述
***无关联性检验(无关联:?_ij=p_(i+) * p_(+j))
大样本:卡方:freq过程 var ab/ chisq(卡方检验) cellchi2(单元格卡方贡献) expected(单元格期望)
小样本(单元格样本<5):精确卡方:freq过程 exact chisq pchi(exact与var并列)
两有序变量关联:Mentel Haenszel检验法(比卡方对有序敏感):var /chisq measures
(有序关联需要先进行排序 proc freq data= order=)
(判断有序关联,先看MH统计p值,再看gamma统计量与0比较)
配对变量检验(打针前后):freq过程 var a
b/agree

freq 过程中 var的选项
输出类型/nopercent norow nocol nocum nofreq missing list
统计量&检验/chisq cellchi2 measures riskdiff expected deviation agree
***对于2×2列联表默认做Fisher检验,而超过2×2的表需要添加exact选项(并且没有高亮)。
***只有2*2的列联表能输出riskdiff

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值