R实验 非参数性检验(一)

实验目的:

掌握列联表检验(Pearson c2独立性检验),掌握Fisher精确独立性检验,初步掌握三维列联表条件独立性检验;

掌握三个相关性检验:Pearson相关性检验,Spearman秩相关检验,Kendall秩相关检验。

实验内容:

(习题6.11)在高中一年级男生中抽取300名考察其两个属性:B是1500米长跑,C是每天平均锻炼时间,得到4 × 3列联表,如下表所示。试对 a = 0.05,检验B与C是否独立。

300名高中学生体育锻炼的考察结果

1500 米

长跑记录

锻炼时间

合计

2小时以上

12小时

1小时以下

5"01'5"30'

45

12

10

67

5"31'6"00'

46

20

28

94

6"01'6"30'

28

23

30

81

6"31'7"00'

11

12

35

58

合计

130

67

103

300

解:提出假设:

H0:1500米长跑纪录与锻炼时间相互独立

H1:1500米长跑纪录与锻炼时间相关

源代码及运行结果:(复制到此处,不要截图)

> x<-c(45,12,10,46,20,28,28,23,30,11,12,35)

> y<-matrix(x,nc=3,byrow = T)

> chisq.test(y)

Pearson's Chi-squared test

data:  y

X-squared = 40.401, df = 6, p-value = 3.799e-07

结论:P值远小于0.05,拒绝原假设,即1500米长跑记录与锻炼时间相关。

(习题6.12)为研究分娩过程中使用胎儿电子监测仪对剖腹产率有无影响,对5824例分娩的经产妇进行回顾性调查,结果如下表所示,试进行分析。

5824例经产妇回顾性调查结果

剖腹产

胎儿电子监测仪

合计

使用

未使用

358

229

587

2492

2745

5237

合计

2850

2974

5824

解:提出假设:

H0:分娩过程中使用胎儿电子监测仪对剖腹产率无影响

H1:分娩过程中使用胎儿电子监测仪对剖腹产率有影响

源代码及运行结果:(复制到此处,不要截图)

> a<-c(358,229,2492,2745)

> b<-matrix(a,nc=2,byrow = T)

> chisq.test(b)

Pearson's Chi-squared test with Yates' continuity

correction

data:  b

X-squared = 37.414, df = 1, p-value = 9.552e-10

结论:P值远小于0.05,拒绝原假设,即分娩过程中使用胎儿电子监测仪对剖腹产率有影响。

(习题6.13)为比较两种工艺对产品的质量是否有影响,对其产品进行抽样检查,其结果如下表所示。试进行分析。

两种工艺下产品质量的抽查结果

合格

不合格

合计

工艺一

3

4

7

工艺二

6

4

10

合计

9

8

17

解:提出假设:

H0:两种工艺产品的质量相互对立

H1:两种工艺产品的质量相关

源代码及运行结果:(复制到此处,不要截图)

> c<-c(3,4,6,4)

> d<-matrix(c,nc=2,byrow = T)

> fisher.test(d)

Fisher's Exact Test for Count Data

data:  d

p-value = 0.6372

alternative hypothesis: true odds ratio is not equal to 1

95 percent confidence interval:

 0.04624382 5.13272210

sample estimates:

odds ratio

  0.521271

结论:P值(=0.637)>0.05,接受原假设,即两种工艺产品的质量无相关性。

(习题6.14)一所大学去年收到 21 位男生和 63 位女生的求职信,结果聘用了 10 位男生和 14位女生 (1) 分析这所大学在招聘方面是否存在性别差异;(2) 根据学院详细分类数据如下表所示,再研究该大学在招聘方面是否存在性别差异。

某大学去年的招聘情况

申请者

教育学院

管理学院

工程学院

被聘

被拒

被聘

被拒

被聘

被拒

男性

2

8

5

0

3

3

女性

12

48

1

0

1

1

解:

(1)提出假设:

H0:这所大学在招聘方面没有存在性别差异

H1:这所大学在招聘方面存在性别差异

源代码及运行结果:(复制到此处,不要截图)

> r<-matrix(c(10,11,14,49),nc=2,byrow = T)

> chisq.test(r)

Pearson's Chi-squared test with Yates' continuity

correction

data:  r

X-squared = 3.8111, df = 1, p-value = 0.05091

结论:P值为0.0509接近0.05,这意味着存在一些证据表明这所大学在招聘方面存在性别差异,但结果并不十分显著

(2)提出假设:

H0:这所大学在招聘方面没有存在性别差异

H1:这所大学在招聘方面存在性别差异

源代码及运行结果:(复制到此处,不要截图)

> r<-array(c(2,12,8,48,5,1,0,0,3,1,3,1),dim = c(2,2,3))

> mantelhaen.test(r)

Mantel-Haenszel chi-squared test without continuity

correction

data:  r

Mantel-Haenszel X-squared = 0, df = 1, p-value = 1

alternative hypothesis: true common odds ratio is not equal to 1

95 percent confidence interval:

 0.2269314 4.4066187

sample estimates:

common odds ratio

结论:P值>0.05,接受原假设,即这所大学在招聘方面没有存在性别差异

(习题6.15)下表(数据存放在 score.data 文件中)列出某高中 18 名学生某门课程的高考成绩和模拟考试成绩,这组数据能否说明高考成绩与模拟考试成绩是相关的?

高考成绩和模拟考试成绩

学号

高考
成绩

模考
成绩

学号

高考
成绩

模考
成绩

学号

高考
成绩

模考
成绩

1

87

90

7

78

65

13

90

100

2

76

98

8

91

90

14

92

97

3

77

92

9

76

84

15

100

97

4

85

87

10

100

92

16

100

95

5

89

87

11

96

100

17

90

94

6

83

62

12

96

98

18

99

100

提示:显然应该优先考虑Pearson相关检验。但用Pearson相关检验,必须先进行正态性检验。严格来说,应该检验两个总体的联合分布是否服从正态分布(可利用第三方程序包,如vmnormtest程序包中的mshapiro.test()函数),但在实际使用时,通常是分别对两个总体单独进行正态性检验。如果不符合正态性,改用Spearman相关检验。

解:(1)正态性检验

提出假设:

H0:两个总体的联合分布服从正态性分布

H1:两个总体的联合分布不服从正态性分布

源代码及运行结果:(复制到此处,不要截图)

> X <- read.table("C:/Users/黄培滇/Desktop/R语言生物统计学/chap06/score.data", header = TRUE)

> shapiro.test(X$高考)

Shapiro-Wilk normality test

data:  X$高考

W = 0.91202, p-value = 0.0934

> shapiro.test(X$模拟)

Shapiro-Wilk normality test

data:  X$模拟

W = 0.77174, p-value = 0.0006223

结论:高考P值大于0.05,接受原假设,即高考成绩服从正态分布,但模拟P值远小于0.05,拒绝原假设,即模拟成绩不服从正态分布,因此总体联合不服从正态分布

(2)相关检验

提出假设:

H0:高考成绩与模拟考试成绩相互独立

H1:高考成绩与模拟考试成绩相关

源代码及运行结果:(复制到此处,不要截图)

> X <- read.table("C:/Users/黄培滇/Desktop/R语言生物统计学/chap06/score.data", header = TRUE)

> cor.test(X$高考,X$模拟,method = "spearman")

Spearman's rank correlation rho

data:  X$高考 and X$模拟

S = 462.82, p-value = 0.02615

alternative hypothesis: true rho is not equal to 0

sample estimates:

      rho

0.5223728

结论:P值远小于0.05,拒绝原假设,即高考成绩与模拟考成绩相关

(习题6.16)调查某大学学生每周学习时间与得分的平均等级之间的关系,现抽查10个学生的资料如下:

学习时间

24

17

20

41

52

23

46

18

15

29

学习等级

8

1

4

7

9

5

10

3

2

6

其中等级10表示最好,1表示最差。试用秩相关检验(Spearman检验和Kendall检验)分别分析学习时间与学习等级有无关系。

解:(1)用Spearman秩检验方法

提出假设:

H0:学习时间与学习等级相互独立

H1:学习时间与学习等级相关

源代码及运行结果:(复制到此处,不要截图)

> a<-c(24,17,20,41,52,23,46,18,15,29)

> b<-c(8,1,4,7,9,5,10,3,2,6)

> cor.test(a,b,method = "spearman")

Spearman's rank correlation rho

data:  a and b

S = 10, p-value < 2.2e-16

alternative hypothesis: true rho is not equal to 0

sample estimates:

      rho

0.9393939

结论:P值远小于0.05,拒绝原假设,即学习时间与学习等级相关

(2)用Kendall秩检验方法

源代码及运行结果:(复制到此处,不要截图)

> a<-c(24,17,20,41,52,23,46,18,15,29)

> b<-c(8,1,4,7,9,5,10,3,2,6)

> cor.test(a,b,method = "kendall")

Kendall's rank correlation tau

data:  a and b

T = 41, p-value = 0.0003577

alternative hypothesis: true tau is not equal to 0

sample estimates:

      tau

0.8222222

结论:P值远小于0.05,拒绝原假设,即学习时间与学习等级相关

思考:

在对四格表的问题进行独立性检验时,Pearson c2统计量的自由度是多少?一般地,在对于I 行J 列的列联表进行独立性检验时,Pearson c2统计量的自由度是多少?

在对四格表的问题进行独立性检验时,Pearson c2统计量的自由度是1,在对于I 行J 列的列联表进行独立性检验时,Pearson c2统计量的自由度是(I-1)*(J-1)。

在样本数较小时(指单元的期望频数小于4),需要用__Fisher精确________检验来完成独立性检验,该检验是建立在____超几何分布________分布的基础上。在R软件中,做该检验的函数是__fisher.test()________。

Mantel - Haenszel 检验是针对一类特殊的三维列联表(2×2×k)设计的,在R软件中,做该检验的函数是____mantlhaen.test()___________。

相关性检验有哪三种方法?其中哪两种是非参数检验方法?

Pearson相关检验

Spearman相关检验

Kendall相关检验

两个样本的相关系数的绝对值越接近于1,能否说明两个样本所在的总体的相关性越强?为什么?

不能。相关系数的绝对值大小只能说明两个变量之间的线性关系程度,但不能说明相关性的强度。

  • 37
    点赞
  • 18
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值