stata统计分析及行业应用案例分析_推论统计分析思路及案例详解

本文主要介绍推论统计思路,包括假设检验分析、置信区间、效应量,并通过案例查看不同类型的样本的假设检验如何进行。

74276d0b673353411f0a66632360e9d3.png

误差思维和置信区间

在介绍假设检验分析思路之前,先介绍一个知识:置信区间。

为什么要有置信区间?在只有样本数据的情况下,我们可以用样本数据估计总体的均值、标准差,但由于我们没有使用整个总体,归根究底,我们只是得到了最佳估计量。与其给出一个精确值作为总体均值的估计值,不如采用另外一种方法,给定一个区间,让均值的点估计量落在这个区间里。这个区间就是接下来要介绍的置信区间。置信区间是区间估计的一种方法。

  • 置信区间:样本估计总体平均值误差范围的区间[a,b]
  • 置信水平:置信区间包含总体平均值的概率是多少。p(a<样本平均值<b)=Y%,置信水平的确定取决于实际情况。置信区间越宽,包含总体平均值的概率就越大,置信水平就越大。

计算置信区间的思路如下:

  1. 确定要求解的问题是什么?
  2. 求样本的平均值和标准误差
  3. 确定置信水平,查找z表格或t表格,求得标准分z或t。
  4. 求出置信区间的上下限值a,b。
  • a=样本平均值-z或t的绝对值×标准误差
  • b=样本平均值+z或t的绝对值×标准误差,标准误差计算公式如下:

6afd20571d4ebd001e82cb80db69fe8a.png

总体标准差可用样本标准差估计。

  • 大样本如何计算置信区间

当样本大小n>30时,抽样分布就很接近正态分布了,查找的是z表格。

例子:想知道成年男性的平均身高范围,已知样本大小是100人,平均值是167.1CM,样本标准差是0.2CM,置信水平95%,n>30,符合中心极限定理。

解答:标准误差:SE=0.2/10的开方=0.02cm

95%置信水平对应的z绝对值为1.96,

a=167.1-1.96*0.02=167.0608,b=167.1+1.96*0.02=167.1392

置信水平95%的置信区间为(167.0608,167.1392)

  • 小样本如何计算置信区间

当样本大小n<30时,是小样本,其抽样分布不符合正态分布,若样本分布近似正态分布,但是尾部更长,则小样本的分布符合t分布,查找t表格。自由度df=n-1。

例子:想知道药物对神经反映时间,需要为总体构建一个置信区间。选取一个样本,样本大小n=10,平均值为1.05秒,样本标准差为0.5秒。

解答:标准误差=0.5/10的开方=0.158秒,通过置信水平95%和自由度9查找t,得到t=2.262,a=1.05-2.262*0.158=0.692,b=1.05+2.262*0.158=1.407,置信水平95%的置信区间为(0.692,1.407)

推论统计分析

推论统计分析报告包含描述统计分析和推论统计分析,推论统计分析包括假设检验、置信区间、效应量。其中假设检验是重中之重。

e48e2aa5e6a535d9a76c990187a4d6a3.png

一、描述统计分析

我们开展调查研究并计算统计结果时,我们会在报告的第一部分进行描述统计分析,例如平均值和标准差。描述统计量是研究的核心。告诉我们研究中发生的情况,应该始终报告出来。

二、推论统计分析

(一)假设检验

1、 问题是什么

要通过零假设(备选假设)、检验类型、抽样分布类型、检验方向4个部分描述要检验的问题是什么?

  • 零假设和备选假设:首先确定问题的零假设是什么,零假设一般表示研究没有改变,没有效果,比如研发的药物对改善病情没有影响。备选假设与之相反。
  • 检验类型:再根据样本的情况和检验目的确定检验类型,假设检验有3种类型,如下图:

599d68fd6fe8d4aa23ee08688060c210.png
来源:猴子
  1. 相关样本:优点:可以使用较少的实验对象,成本低,花费时间短。缺点:有残留效应,第二次的实验结果会受到第一次处理措施的影响
  2. 独立样本:优点:无残留效应。缺点:需要更多的实验对象,成本高,花费时间长。
  • 抽样分布类型:再根据样本大小和(总体)分布情况确定抽样分布类型,抽样分布类型会影响下一步证据是什么中p值的计算。

30cb238e27c529d4b93324fa7b18a0bc.png
来源:猴子
  • 检验方向:最后根据备选假设确定是单尾检验还是双尾检验,单尾的话是左尾检验还是右尾检验。

如果备选假设有小于号,就使用左尾检验,如果备选假设有大于号,就使用右尾检验,备选假设包含不等号,使用双尾检验。

2、证据是什么

前一部分,我们已经明确了问题,接下来需要根据问题来找证据,即根据假设检验的检验类型和抽样分布类型求p值,p值:假设已知数据是从零假设成立的前提下抽取的,求得到这个样本平均值的概率是多少?

3、判断标准是什么

选定一个显著水平α(常见的有0.1%,1%,5%),将p值和其进行比较,得出结论

4、 做出结论

若p<=α,拒绝零假设,统计显著,即备选假设成立,

若p>α,接受零假设。

至此假设检验部分已完成,假设检验报告的APA格式:

检验类型、p值(显著水平)、检验方向

t(df)=*.**,p=0.**(α=0.**),检验方向

(二)置信区间

置信区间APA格式:

置信区间类型(描述是什么数据的置信区间,比如单个/两个样本平均值的置信区间)、置信水平CI=(a,b)

(三) 效应量

为什么要给出效应量?

在判断某个调查研究的结果,是否有意义或者重要时,要考虑的另一项指标是效应量。效应量太小,意味着处理即使达到了显著水平,也缺乏实用价值。统计显著:两个总体之间有差异,效果显著:衡量两个总体之间差异的大小。所以,在假设检验中,我们给出了是否具有统计显著性,也要给出效应量,一起来判断研究结果是否有意义。

1、差异指标

以标准差为单位衡量两组平均值之间的差距

b45eaa26336cacf2d1ab7ed0212e2c91.png

cc502a9479b8109e099eae2ea925df3f.png

2、相关度指标

R平方,表示某个变量的变化比例与另一变量的关系。可以用t检验的信息推出R平方的公式,这里的t值是从t检验中获得的值,df是自由度。

  • 1
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值