实验十—基本统计分析(三)

实验10 基本统计分析(三)

1.调查某大学学生每周学习时间与得分的平均等级之间的关系,现抽查10个学生的资料如student.data文件所示。其中等级10表示最好,1表示最差,试用秩相关检验(Spearman检验和Kendall检验)分析学习时间和学习等级有无关系。(相关性检验)

image-20221008213605875

image-20221008214258414

提出假设:

H0:学习时间和学习等级无关系

H1:学习时间和学习等级有关系

得出结论:

使用 spearman 方法,p=0.09279>0.05,接收原假设,学习时间和学习等级无关系。

使用 kendall 方法,p=0.03114<0.05,拒绝原假设,学习时间和学习等级有关系。

2.文件score.data中的数据列出某高中18名学生某门课程的高考成绩和模拟考试成绩,这组数据能否说明高考成绩与模拟考试成绩是相关的?(相关性检验)

image-20221008215006457

image-20221008215312717

提出假设:

H0:不能说明高考成绩与模拟考试成绩是相关的

H1:能说明高考成绩与模拟考试成绩是相关的

P= 0.02817<0.05 ,拒绝原假设,即高考成绩与模拟考试成绩是相关的。

3.为比较两种工艺对产品的质量是否有影响,对其产品进行抽样检查,其结果如表所示,试分析两种工艺对产品质量是否有显著差异?

合格不合格合计
工艺1347
工艺26410
合计9817

image-20221008215930500

提出假设:

H0:两种工艺对产品的质量没有显著性差异

H1:两种工艺对产品的质量有显著性差异

P=0.6372>0.05,接收原假设,即两种工艺对产品的质量没有显著性差异。

4.为研究分娩过程中使用胎儿电子检测仪对剖妇产率有无影响,对5824例分娩的产妇进行回顾性调查,结果如表所示,试分析。

image-20221008220431917

image-20221008220747036

H0:分娩过程中使用胎儿电子监测仪对剖腹产率无影响

H1:分娩过程中使用胎儿电子监测仪对剖腹产率有影响

p=9.552e-10<0.05,拒绝原假设,所以分娩过程中使用胎儿电子监测仪对剖腹产率有影响

5.Mendel用豌豆的两对相对性状进行杂交实验,黄色圆滑种子与绿色皱缩种子的豌豆杂交后,第二代根据自由组合规律,理论分离比为:

黄圆:黄皱:绿圆:绿皱=9/16:3/16:3/16:1/16

实际实验值为:黄圆315 黄皱 101 绿圆 108 绿皱 32 ,共556粒。问此结果是否符合自由组合规律?

image-20221008221458436

进行假设:

H0: 黄圆:黄皱:绿圆:绿皱=9/16:3/16:3/16:1/16

H1: 黄圆:黄皱:绿圆:绿皱≠9/16:3/16:3/16:1/16

p=0.9254>0.05,接收原假设,即结果符合自由组合定律。

6.在某养鱼塘中,根据过去经验,鱼的长度的中位数为14.6cm,现对鱼塘中鱼的长度进行一次估测,随机地从鱼塘中取出10条鱼,长度数据保存在fish.data中,用Wilcoxon符号秩检验,试分析该鱼塘中鱼的长度是在中位数之上,还是在中位数之下?

image-20221008222356736

提出假设:

H0:中位数大于或者等于14.6

H1:中位数小于14.6

p=0.01087<0.05,拒绝原假设,即该鱼塘中鱼的长度在中位数之下。

7.请撰写报告,阐述统计学三大相关性系数(pearson、spearman、kendall)的区别

总的来讲,三个相关性系数(pearson, spearman, kendall)反应的都是两个变量之间变化趋势的方向以及程度,其值范围为-1到+1,0表示两个变量不相关,正值表示正相关,负值表示负相关,值越大表示相关性越强

person correlation coefficient(皮尔森相关性系数-r)

公式:
ρ X , Y = cov ⁡ ( X , Y ) σ X σ Y = E ( ( X − μ X ) ( Y − μ Y ) ) σ X σ Y = E ( X Y ) − E ( X ) E ( Y ) E ( X 2 ) − E 2 ( X E ( Y 2 ) − E 2 ( Y ) \rho_{X, Y}=\frac{\operatorname{cov}(X, Y)}{\sigma_{X} \sigma Y}=\frac{E\left(\left(X-\mu_{X}\right)\left(Y-\mu_{Y}\right)\right)}{\sigma_{X} \sigma Y}=\frac{E(X Y)-E(X) E(Y)}{\sqrt{E\left(X^{2}\right)-E^{2}(X} \sqrt{E\left(Y^{2}\right)-E^{2}(Y)}} ρX,Y=σXσYcov(X,Y)=σXσYE((XμX)(YμY))=E(X2)E2(X E(Y2)E2(Y) E(XY)E(X)E(Y)
两个变量(X, Y)的皮尔森相关性系数(ρX,Y)等于它们之间的协方差cov(X,Y)除以它们各自标准差的乘积(σX, σY)。(分母是变量的标准差,这就意味着变量的标准差不能为0(分母不能为0),也就是说你每个变量所包含值不能都是相同的。如果没有变化,方差为0,那么是无法计算的)

方差是表示一个变量的波动情况,方差越小表示数据越集中,越大表示数据越离散;
标准差:等于(或近似等于)方差的开根号;
协方差:可以理解成两个变量之间的方差,其取值可以是负无穷到正无穷,它可以表示两个变量之间的变化趋势,但是不能表示它们之间的程度

局限性:

  • ==实验数据通常假设是成对的来自于正态分布的总体。==为啥通常会假设为正态分布呢?因为我们在求皮尔森相关性系数以后,通常还会用t检验之类的方法来进行皮尔森相关性系数检验。
  • 实验数据之间的差距不能太大,或者说皮尔森相关性系数受异常值的影响比较大。因为根据公式可以看到是直接是用x,y的值进行计算。相对应的spearman correlation对异常值不敏感,因为它是属于rank test,具体见下面介绍。

spearman correlation coefficient(斯皮尔曼相关性系数-p)

通常也叫斯皮尔曼相关系数。

“秩”,可以理解成就是一种顺序或者排序,那么它就是根据原始数据的排序位置进行求解,而不是直接是用x,y的值进行求解(因此对异常值不敏感,也不要求正态分布)。
公式:
ρ s = 1 − 6 ∑ d i 2 n ( n 2 − 1 ) \rho_{s}=1-\frac{6 \sum d_{i}^{2}}{n\left(n^{2}-1\right)} ρs=1n(n21)6di2
计算过程就是:

  1. 获得秩次:记下原始X Y值得排序位置(X’, Y’),(X’, Y’)的值就称为秩次
  2. 对两个变量(X, Y)的数据进行排序
  3. 计算两个变量秩次的差值,也就是上面公式中的di,n就是变量中数据的个数
  4. 最后带入公式就可求解结果。
    举个例子吧,假设我们实验的数据如下:

在这里插入图片描述

带入公式,求得斯皮尔曼相关性系数:ρ(s)= 1-6*(1+1+1+9)/6*35=0.657
不用管X和Y这两个变量具体的值到底差了多少,只需要算一下它们每个值所处的排列位置的差值,就可以求出相关性系数了。(如果原始数据中有重复值,则在求秩次时要以它们的平均值为准)

优势:

  • 即便在变量值没有变化的情况下,也不会出现像皮尔森系数那样分母为0而无法计算的情况。
  • 即使出现异常值,由于异常值的秩次通常不会有明显的变化(比如过大或者过小,那要么排第一,要么排最后),所以对斯皮尔曼相关性系数的影响也非常小
  • 斯皮尔曼相关性系数没有那些数据条件要求,适用的范围广

pearson和spearman都是衡量连续型变量间的相关性,那么如果是分类变量呢?

kendall correlation coefficient(肯德尔相关性系数-k)

肯德尔相关性系数,又称肯德尔秩相关系数,它也是一种秩相关系数,不过它所计算的对象是分类变量。分类变量可以理解成有类别的变量,可以分为无序的,比如性别(男、女)、血型(A、B、O、AB),以及有序的,比如肥胖等级(重度肥胖,中度肥胖、轻度肥胖、不肥胖)。通常需要求相关性系数的都是有序分类变量

尔相关性系数,又称肯德尔秩相关系数,它也是一种秩相关系数,不过它所计算的对象是分类变量。分类变量可以理解成有类别的变量,可以分为无序的,比如性别(男、女)、血型(A、B、O、AB),以及有序的,比如肥胖等级(重度肥胖,中度肥胖、轻度肥胖、不肥胖)。通常需要求相关性系数的都是有序分类变量

例子:比如评委对选手的评分(优、中、差等),我们想看两个(或者多个)评委对几位选手的评价标准是否一致;或者医院的尿糖化验报告,想检验各个医院对尿糖的化验结果是否一致,这时候就可以使用肯德尔相关性系数进行衡量。

  • 1
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

W_chuanqi

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值