文章目录
统计分析
简介
统计分析使用定量数据来研究趋势、模式和关系,是科学家、政府、企业和其他组织使用的重要研究工具。
为了得出有效的结论,统计分析需要从研究过程的一开始就进行仔细的规划。需要明确假设,并对研究设计、样本大小和抽样程序做出决策。
下面是两个例子,一个是潜在因果关系、另一个是变量之间的潜在相关性。
例子:
因果研究问题
冥想能提高青少年的考试表现吗?
相关性研究问题
父母的收入与大学平均绩点之间有关系吗?
Step 1:写假设并且规划研究设计
撰写统计假设
研究的目标通常是调查群体内变量之间的关系。从一个预测开始,使用统计分析来检验这个预测。
统计假设是一种关于群体的预测的正式表达方式。每一个预测都被重新表述为可以使用样本数据来检验的null hypotheses和alternative hypotheses。
虽然零假设总是预测没有效应或变量之间没有关系,备择假设则陈述了你对效应或关系的研究预测。
例子:
检测效应的统计假设
null hypothesis:一个5分钟的冥想训练对于数学测验分数没有影响
alternative hypothesis:一个5分钟的冥想训练会提高青少年的数学测验成绩
检测相关性的统计假设
null hypothesis:在大学学生中,父母收入与GPA彼此之间没有关系
alternative hypothesis:在大学生中,父母收入和GPA正相关。
规划研究设计
研究设计(research design)是进行数据手机和分析的总体策略,它决定了你稍后用来检验假设的统计测试方法。
首先,决定你的研究将使用描述性、相关性还是实验性设计。实验直接影响变量,而描述性和相关性研究只是测量变量。
- 在实验性设计中,你可以使用比较或回归的统计测试来评估因果关系(例如,冥想对考试成绩的影响)。
- 在相关性设计中,你可以使用相关系数和显著性测试来探索变量之间的关系(例如,父母收入和GPA),而不假设因果关系。
- 在描述性设计中,你可以使用统计测试从样本数据中推断出对人群或现象的特征(例如,美国大学生中焦虑的普遍性)。
你的研究设计还涉及你是否会在组别层面、个体层面或两者都比较参与者。
- 在组间设计中,你比较了不同处理(例如,执行冥想练习与未执行冥想练习者)的参与者在组别层面上的结果。
- 在组内设计中,你比较了参与了研究所有处理的参与者的重复测量结果(例如,执行冥想练习前后的得分)。
- 在混合(因子)设计中,一个变量在被试之间改变,另一个变量在被试内部改变(例如,执行或未执行冥想练习的参与者的前测和后测得分)。
示例:实验性研究设计
你设计了一个组内实验,以研究5分钟的冥想练习是否能提高数学测试成绩。你的研究从一个参与者群体中进行重复测量。
首先,你将从参与者那里获取基线测试成绩。然后,你的参与者将进行5分钟的冥想练习。最后,你将记录参与者在第二次数学测试中的得分。
在这个实验中,独立变量是5分钟的冥想练习,而依赖变量是干预前后的数学测试成绩。
示例:相关性研究设计
在一项相关性研究中,你测试是否存在父母收入与即将毕业的大学生GPA之间的关系。为了收集数据,你将要求参与者填写一份调查问卷,自我报告他们父母的收入和自己的GPA。
在这项研究中,没有依赖变量或独立变量,因为你只想测量变量,而不以任何方式影响它们。
测量变量
在规划研究设计时,你应该对变量进行操作定义,并决定你将如何精确测量它们。
对于统计分析来说,考虑你的变量的测量水平很重要,这告诉你它们包含什么类型的数据:
- 分类数据代表分组。这些可能是水平的(例如,性别)或顺序的(例如,语言能力水平)。
- 量化数据代表数量。这些可能是在区间尺度(例如,测试分数)或比率尺度(例如,年龄)上。
许多变量可以在不同的精度水平上测量。例如,年龄数据可以是量化的(8岁)或分类的(年轻)。如果变量以数字编码(例如,从1到5的同意程度),这并不自动意味着它是量化的而不是分类的。
识别测量水平对于选择适当的统计方法和假设检验很重要。例如,你可以用量化数据计算平均分,但不能用分类数据计算。
在一项研究中,除了你感兴趣的变量的测量数据外,你通常还会收集有关参与者特征的数据。
示例:变量(实验)
你可以使用定量的年龄或测试成绩数据进行许多计算,而分类变量可用于决定比较测试的分组。
示例:变量(相关性研究)
在相关性研究中,变量的类型决定了你将用于相关系数的测试类型。如果数据是定量的,可以使用参数相关性测试;如果其中一个变量是序数的,则应使用非参数相关性测试。
Step 2:从样本中收集数据
在大多数情况下,从你感兴趣的研究对象的每一个成员那里收集数据是太困难或太昂贵的。相反,你将从一个样本中收集数据。
只要你使用适当的抽样程序,统计分析允许你将你的发现应用到你自己的样本之外。你应该争取一个能代表总体的样本。
抽样进行统计分析
选择样本有两种主要方法。
- 概率抽样:通过随机选择,总体中的每个成员都有机会被选入研究。
- 非概率抽样:由于便利性或自愿自选等标准,总体中的某些成员比其他成员更有可能被选入研究。
理论上,为了得到高度概括性的发现,你应该使用概率抽样方法。随机选择减少了几种类型的研究偏差,如抽样偏差,并确保来自样本的数据实际上是代表总体的。当使用概率抽样收集数据时,可以使用参数测试进行强大的统计推断。
但在实践中,很少能够收集到理想的样本。虽然非概率样本更可能存在诸如自我选择偏差之类的偏差,但它们更容易招募和收集数据。非参数测试更适合非概率样本,但它们对总体的推断较弱。
如果你想对非概率样本使用参数测试,你必须证明:
- 你的样本代表了你要将发现推广到的总体。
- 你的样本缺乏系统性偏差。
请记住,外部有效性意味着你只能将结论推广到与你的样本具有相同特征的其他人。例如,来自西方、受过教育、工业化、富裕和民主样本(例如,美国的大学生)的结果并不自动适用于所有非WEIRD(西方、教育、工业化、富裕、民主)人群。
如果你将参数测试应用于非概率样本的数据,确保在讨论部分详细说明你的结果可以推广到多远的局限性。
创建一个合适的抽样程序
根据你的研究可用资源,决定你将如何招募参与者。
示例:抽样(实验)
你感兴趣的人群是你所在城市的高中生。你联系了该市不同区域的三所私立学校和七所公立学校,看看你是否可以对11年级的学生进行你的实验。
你的参与者是由他们的学校自行选择的。虽然你使用的是非概率样本,但你的目标是获得一个多样化且有代表性的样本。
示例:抽样(相关性研究)
你主要感兴趣的人群是美国的男性大学生。通过社交媒体广告,你从一个较小的子群体中招募了波士顿地区七所大学的大四男性大学生。
你的参与者是自愿参加调查的,这使得这是一个非概率样本。
计算足够的样本大小
在招募参与者之前,通过查看你领域内的其他研究或使用统计学来决定你的样本大小。样本太小可能无法代表整个样本,而样本太大则会比必要的更加昂贵。
网上有许多样本大小计算器。使用哪种公式取决于你是否有子群体或你的研究应该有多严格(例如,在临床研究中)。作为经验法则,每个子群体至少需要30个单位或更多。
要使用这些计算器,你必须理解并输入这些关键组成部分:
- 显著性水平(alpha):你愿意承担的拒绝一个真实零假设的风险,通常设定为5%。
- 统计功效:如果存在某种大小的效应,你的研究检测到它的概率,通常为80%或更高。
- 预期效应大小:基于其他类似研究的,对你研究预期结果大小的标准化指示。
- 人口标准偏差:基于先前研究或你自己的预试研究对人口参数的估计。
Step 3:使用描述性统计汇总你的数据
一旦你收集了所有的数据,你就可以检查它们并计算汇总它们的描述性统计数据。
检查你的数据
有多种方式可以检查你的数据,包括以下几种:
- 将每个变量的数据组织在频率分布表中。
- 在条形图中展示一个关键变量的数据,以查看响应的分布情况。
- 使用散点图可视化两个变量之间的关系。
- 通过在表格和图表中可视化你的数据,你可以评估你的数据是呈偏斜分布还是正态分布,以及是否存在任何异常值或缺失数据。
正态分布意味着你的数据围绕中心对称分布,大多数值位于中心,值在尾端逐渐减少。
相比之下,偏斜分布是不对称的,在一端的值比另一端多。分布的形状很重要,因为只有某些描述性统计量应该用于偏斜分布。
极端离群值也会产生误导性统计数据,因此你可能需要一个系统的方法来处理这些值。
计算集中趋势的量度
集中趋势的量度描述了数据集中大多数值所在的位置。常常报告的三个主要集中趋势量度包括:
- 众数:数据集中最常见的响应或值。
- 中位数:从低到高排序的数据集中正中间的值。
- 平均数:所有值的总和除以值的数量。
然而,根据分布的形状和测量的水平,只有一种或两种这些量度可能是适当的。例如,许多人口统计特征只能使用众数或比例来描述,而像反应时间这样的变量可能根本没有众数。
计算变异性的量度
变异性的量度告诉您数据集中的值有多分散。常常报告的四个主要变异性量度包括:
- 范围:数据集的最高值减去最低值。
- 四分位数范围:数据集中间一半的范围。
- 标准差:您的数据集中每个值与平均值之间的平均距离。
- 方差:标准差的平方。
同样,分布的形状和测量的水平应该指导您选择变异性统计量。四分位数范围是偏态分布的最佳量度,而标准差和方差为正态分布提供最佳信息。
示例:描述性统计(实验)
在从全市30名学生那里收集了预测试和后测试数据之后,您计算了描述性统计数据。因为您拥有按区间量表正态分布的数据,您制表了平均值、标准差、方差和范围。
使用您的表格,您应该检查预测试和后测试分数的描述性统计量的单位是否可比。例如,各组的方差水平是否相似?是否有任何极端值?如果有,您可能需要在执行统计测试之前,识别并移除数据集中的极端异常值或转换您的数据。
从这个表格中,我们可以看到冥想练习后平均分数有所提高,且两个分数的方差是可比的。接下来,我们可以进行统计测试,以找出这种测试分数的提高在总体中是否具有统计学意义。
示例:描述性统计(相关性研究)
在从653名学生那里收集数据后,你为年度父母收入和GPA制作了描述性统计表。
检查你是否拥有广泛的数据点范围很重要。如果没有,你的数据可能会偏向某些群体(例如,高学术成就者)多于其他群体,因此只能对关系做出有限的推断。
接下来,我们可以计算相关系数并进行统计检验,以了解变量之间在总体中的关系的显著性。
Step 4:使用推断统计测试假设或进行估算
描述样本的数字称为统计量,而描述总体的数字称为参数。使用推断统计学,你可以基于样本统计量对总体参数做出结论。
研究者通常使用两种主要方法(同时)进行统计推断。
- 估算:基于样本统计量计算总体参数。
- 假设检验:一个用于使用样本测试关于总体的研究预测的正式过程。
估算
你可以从样本统计量中对总体参数进行两种类型的估算:
- 点估计:一个代表你对准确参数最好猜测的值。
- 区间估计:一个值范围,代表你对参数所在位置的最佳猜测。
如果你的目标是从样本数据推断并报告总体特征,最好在你的论文中同时使用点估计和区间估计。
当你拥有一个代表性样本时(例如,在广泛的公众意见调查中,支持当前政府的样本比例被视为政府支持者的总体比例),你可以将样本统计量视为总体参数的点估计。
估计总是涉及误差,因此你还应该提供一个置信区间作为区间估计,以显示点估计周围的变异性。
置信区间使用标准误差和标准正态分布的z分数来传达你通常期望在大多数时间内找到总体参数的位置。
假设检验
使用来自样本的数据,你可以检验总体中变量之间关系的假设。假设检验开始于假设零假设在总体中是真实的,并且你使用统计测试来评估是否可以拒绝零假设。
统计测试确定如果零假设为真,你的样本数据会在预期的样本数据分布上的什么位置。这些测试给出两个主要输出:
- 测试统计量告诉你你的数据与测试的零假设相比有多大差异。
- P值告诉你如果零假设在总体中实际上是真的,获得你的结果的可能性。
统计测试有三种主要类型:
- 比较测试评估结果中的群体差异。
- 回归测试评估变量之间的因果关系。
- 相关测试评估变量之间的关系,而不假设因果关系。
你选择的统计测试取决于你的研究问题、研究设计、抽样方法和数据特征。
参数检验
参数检验基于样本数据对总体做出有力的推断。但要使用它们,必须满足一些假设,并且只能使用某些类型的变量。如果你的数据违反了这些假设,你可以执行适当的数据转换或使用替代的非参数检验。
回归模型用于模拟预测变量变化导致结果变量变化的程度。
- 简单线性回归包括一个预测变量和一个结果变量。
- 多元线性回归包括两个或更多预测变量和一个结果变量。
比较测试通常比较组的平均值。这些可能是样本内不同组的平均值(例如,治疗组和对照组),一个样本组在不同时间点的平均值(例如,前测和后测分数),或一个样本平均值和总体平均值。
- T检验适用于当样本量小(30或更少)时恰好有1个或2个组。
- Z检验适用于样本量大时恰好有1个或2个组。
- 方差分析(ANOVA)适用于3个或更多组。
Z检验和T检验根据样本的数量和类型以及假设的不同有子类型:
- 如果你只有一个样本,想要将其与总体平均值比较,使用单样本检验。
- 如果你有成对测量(组内设计),使用依赖(成对)样本检验。
- 如果你有来自两个不匹配组的完全独立测量(组间设计),使用独立(未配对)样本检验。
- 如果你期望组之间有特定方向的差异,使用单尾检验。
- 如果你对组间差异的方向没有任何预期,使用双尾检验。
唯一的参数相关性检验是皮尔逊的r。相关系数(r)告诉你两个定量变量之间线性关系的强度。
然而,为了测试样本中的相关性是否足够强以在总体中重要,你还需要对相关系数进行显著性检验,通常是T检验,以获得p值。这个测试使用你的样本大小来计算相关系数与总体中零的差异。
示例:实验研究的成对T检验
因为你的研究设计是组内实验,前测和后测的测量来自同一组,所以你需要一个依赖(成对)的T检验。由于你预测了一个特定方向的变化(测试分数的提高),你需要一个单尾检验。
你使用依赖样本单尾T检验来评估冥想练习是否显著提高了数学测试分数。测试给出了:
一个T值(测试统计量)为3.00
一个P值为0.0028
示例:相关系数和显著性检验
你使用Pearson的r来计算样本中父母收入和GPA之间线性关系的强度。Pearson的r值为0.12,表示样本中存在小的相关性。
虽然Pearson的r是一个测试统计量,但它并不告诉你这种相关性在总体中的显著性如何。你还需要测试这个样本相关系数是否足够大,以证明总体中存在相关性。
一个t检验也可以基于样本大小确定相关系数与零的显著性差异。由于你预期父母收入和GPA之间存在正相关,所以你使用一个样本,单尾t检验。t检验给出了:
一个t值为3.08
一个p值为0.001
Step 5:解释你的结果
统计分析的最后一步是解释你的结果。
统计显著性
在假设检验中,统计显著性是形成结论的主要标准。你将你的p值与一个设定的显著性水平(通常是0.05)进行比较,以决定你的结果是统计上显著的还是非显著的。
统计上显著的结果被认为不太可能仅仅由于偶然而产生。如果零假设在总体中是真的,这样的结果发生的机会非常低。
示例:解释你的结果(实验)
你将你的p值0.0027与你的显著性阈值0.05进行比较。由于你的p值较低,你决定拒绝零假设,并认为你的结果具有统计显著性。
这意味着你相信,与随机因素相比,冥想干预直接导致了测试分数的提高。
示例:解释你的结果(相关性研究)
你将你的p值0.001与你的显著性阈值0.05进行比较。由于p值低于这一阈值,你可以拒绝零假设。这表明父母收入与男大学生的GPA之间存在统计显著的相关性。
注意,相关性并不总是意味着因果关系,因为通常有许多底层因素共同影响像GPA这样的复杂变量。即使一个变量与另一个变量相关,这也可能是因为第三个变量同时影响它们,或者两个变量之间存在间接联系。
大样本量也可以通过使非常小的相关系数看起来具有统计显著性,从而强烈影响相关系数的统计显著性。
效应量
一个统计学上显著的结果并不一定意味着这一发现在实际应用或临床结果上有重要意义。
相反,效应量指的是你的结果的实际重要性。在报告你的推断统计结果时,附带报告效应量对于全面展示你的研究结果非常重要。如果你正在撰写符合APA风格的论文,你还应该报告效应量的区间估计。
示例:效应量(实验)
你计算了科恩的d值来找出预测试验和后测试验分数之间的差异大小。
当科恩的d值为0.72时,表明你发现的冥想练习提高了测试分数的实际重要性处于中等到高等级别。
示例:效应量(相关性研究)
为了确定相关系数的效应量,你将你的皮尔逊r值与科恩的效应量标准进行比较。
因为你的值在0.1到0.3之间,你发现的父母收入与GPA之间的关系代表了一个非常小的效应,并且具有有限的实际重要性。
决策错误
I型错误和II型错误是在研究结论中犯的错误。I型错误意味着在零假设实际为真时拒绝它,而II型错误意味着在零假设为假时未能拒绝它。
你可以通过选择一个最优的显著性水平和确保高效能来尽量减少这些错误的风险。然而,这两种错误之间存在权衡,因此需要一个良好的平衡。
频率主义与贝叶斯统计
传统上,频率主义统计强调零假设的显著性检验,并始终以零假设为真的假设开始。
然而,贝叶斯统计在过去几十年中作为一种替代方法增长了人气。在这种方法中,你使用先前的研究来根据你的期望和观察不断更新你的假设。
贝叶斯因子比较了对零假设与备择假设的证据的相对强度,而不是做出是否拒绝零假设的结论。