stata统计分析及行业应用案例分析_推论统计分析思路及案例详解

最新推荐文章于 2023-03-12 10:05:38 发布

VIP文章 weixin_39524842

最新推荐文章于 2023-03-12 10:05:38 发布

阅读量5.2k

点赞数 1

文章标签： stata统计分析及行业应用案例分析

本文主要介绍推论统计思路，包括假设检验分析、置信区间、效应量，并通过案例查看不同类型的样本的假设检验如何进行。

误差思维和置信区间

在介绍假设检验分析思路之前，先介绍一个知识：置信区间。

为什么要有置信区间？在只有样本数据的情况下，我们可以用样本数据估计总体的均值、标准差，但由于我们没有使用整个总体，归根究底，我们只是得到了最佳估计量。与其给出一个精确值作为总体均值的估计值，不如采用另外一种方法，给定一个区间，让均值的点估计量落在这个区间里。这个区间就是接下来要介绍的置信区间。置信区间是区间估计的一种方法。

置信区间：样本估计总体平均值误差范围的区间[a,b]
置信水平：置信区间包含总体平均值的概率是多少。p(a<样本平均值<b)=Y%，置信水平的确定取决于实际情况。置信区间越宽，包含总体平均值的概率就越大，置信水平就越大。

计算置信区间的思路如下：

确定要求解的问题是什么？
求样本的平均值和标准误差
确定置信水平，查找z表格或t表格，求得标准分z或t。
求出置信区间的上下限值a，b。

a=样本平均值-z或t的绝对值×标准误差
b=样本平均值+z或t的绝对值×标准误差，标准误差计算公式如下：

总体标准差可用样本标准差估计。

大样本如何计算置信区间

当样本大小n>30时，抽样分布就很接近正态分布了，查找的是z表格。

例子：想知道成年男性的平均身高范围，已知样本大小是100人，平均值是167.1CM，样本标准差是0.2CM，置信水平95%，n>30，符合中心极限定理。

解答：标准误差：SE=0.2/10的开方=0.02cm

95%置信水平对应的z绝对值为1.96，

a=167.1-1.96*0.02=167.0608，b=167.1+1.96*0.02=167.1392

置信水平95%的置信区间为（167.0608，167.1392）

小样本如何计算置信区间

当样本大小n<30时，是小样本，其抽样分布不符合正态分布，若样本分布近似正态分布，但是尾部更长，则小样本的分布符合t分布，查找t表格。自由度df=n-1。

例子：想知道药物对神经反映时间，需要为总体构建一个置信区间。选取一个样本，样本大小n=10，平均值为1.05秒，样本标准差为0.5秒。

解答：标准误差=0.5/10的开方=0.158秒，通过置信水平95%和自由度9查找t，得到t=2.262，a=1.05-2.262*0.158=0.692，b=1.05+2.262*0.158=1.407，置信水平95%的置信区间为（0.692，1.407）

推论统计分析

推论统计分析报告包含描述统计分析和推论统计分析，推论统计分析包括假设检验、置信区间、效应量。其中假设检验是重中之重。

一、描述统计分析

我们开展调查研究并计算统计结果时，我们会在报告的第一部分进行描述统计分析，例如平均值和标准差。描述统计量是研究的核心。告诉我们研究中发生的情况，应该始终报告出来。

二、推论统计分析

（一）假设检验

1、问题是什么

要通过零假设（备选假设）、检验类型、抽样分布类型、检验方向4个部分描述要检验的问题是什么？

零假设和备选假设：首先确定问题的零假设是什么，零假设一般表示研究没有改变，没有效果，比如研发的药物对改善病情没有影响。备选假设与之相反。
检验类型：再根据样本的情况和检验目的确定检验类型，假设检验有3种类型，如下图：

来源：猴子

相关样本：优点：可以使用较少的实验对象，成本低，花费时间短。缺点：有残留效应，第二次的实验结果会受到第一次处理措施的影响
独立样本：优点：无残留效应。缺点：需要更多的实验对象，成本高，花费时间长。

抽样分布类型：再根据样本大小和（总体）分布情况确定抽样分布类型，抽样分布类型会影响下一步证据是什么中p值的计算。

来源：猴子

检验方向：最后根据备选假设确定是单尾检验还是双尾检验，单尾的话是左尾检验还是右尾检验。

如果备选假设有小于号，就使用左尾检验，如果备选假设有大于号，就使用右尾检验，备选假设包含不等号，使用双尾检验。

2、证据是什么

前一部分，我们已经明确了问题，接下来需要根据问题来找证据，即根据假设检验的检验类型和抽样分布类型求p值，p值：假设已知数据是从零假设成立的前提下抽取的，求得到这个样本平均值的概率是多少？

3、判断标准是什么

选定一个显著水平α（常见的有0.1%，1%，5%），将p值和其进行比较，得出结论

4、做出结论

若p<=α，拒绝零假设，统计显著，即备选假设成立，

若p>α，接受零假设。

至此假设检验部分已完成，假设检验报告的APA格式：

检验类型、p值（显著水平）、检验方向

t(df)=*.**，p=0.**(α=0.**)，检验方向

（二）置信区间

置信区间APA格式：

置信区间类型（描述是什么数据的置信区间，比如单个/两个样本平均值的置信区间）、置信水平CI=（a,b）

（三）效应量

为什么要给出效应量？

在判断某个调查研究的结果，是否有意义或者重要时，要考虑的另一项指标是效应量。效应量太小，意味着处理即使达到了显著水平，也缺乏实用价值。统计显著：两个总体之间有差异，效果显著：衡量两个总体之间差异的大小。所以，在假设检验中，我们给出了是否具有统计显著性，也要给出效应量，一起来判断研究结果是否有意义。

1、差异指标

以标准差为单位衡量两组平均值之间的差距

2、相关度指标

R平方，表示某个变量的变化比例与另一变量的关系。可以用t检验的信息推出R平方的公式，这里的t值是从t检验中获得的值，df是自由度。

最低0.47元/天解锁文章

weixin_39524842

关注

1
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
stata统计分析及行业应用案例分析_推论统计分析思路及案例详解

本文主要介绍推论统计思路，包括假设检验分析、置信区间、效应量，并通过案例查看不同类型的样本的假设检验如何进行。误差思维和置信区间在介绍假设检验分析思路之前，先介绍一个知识：置信区间。为什么要有置信区间？在只有样本数据的情况下，我们可以用样本数据估计总体的均值、标准差，但由于我们没有使用整个总体，归根究底，我们只是得到了最佳估计量。与其给出一个精确值作为总体均值的估计值，不如采用另外一种方法，给定一...
复制链接

扫一扫