PNAS：过去二十年心理学论文的可重复性调查

最新推荐文章于 2025-04-28 22:01:42 发布

悦影科技

最新推荐文章于 2025-04-28 22:01:42 发布

阅读量302

点赞数

分类专栏：脑科学前沿研究/文献解读文章标签：人工智能心理学

本文链接：https://blog.csdn.net/weixin_41880581/article/details/132469496

版权

脑科学前沿研究/文献解读专栏收录该内容

327 篇文章

订阅专栏

由于社会科学中的可复制性较弱，学者们渴望量化一门学科的不可复制性的规模和范围。然而，小规模手动复制方法不适合处理这个大数据问题。在这里，我们在科学领域进行了一个全学科范围内的复制普查。包含样本（N=14,126篇论文）几乎涵盖了过去20年里在6家顶级心理学期刊上发表的几乎所有论文。使用一个经过验证的机器学习模型，估计论文的复制可能性，最终结果既支持又反驳了之前相对较小的人工复制样本中所得出的推测。首先，我们发现心理学的单一整体复制率不能很好地捕捉到子域之间不同程度的可复制性。其次，我们发现在所有子领域中，复制率与研究方法密切相关。实验的重复速率明显低于非实验研究。第三，我们发现作者的累积发表数量和被引文的影响与复制的可能性呈正相关，而对研究质量和严谨性的其他相关因素，如作者的大学声望和论文的被引文，与可复制性无关。最后,我们发现媒体关注与复制失败的可能性呈正相关。我们对可复制性的规模和范围的评估是广泛解决可复制性问题的重要下一步。

加强研究的可复制性是科学正在自我纠正的过程。科学上的复制确保了我们处理的不是一个孤立的“巧合”，而是由于其规律性和再现性，原则上是主观间可测试的事件。复制测试的一个转折点发生在2011年，当时一项关于“时间保留的因果关系”的研究引发了一项罕见的复制研究。首次复制失败导致更多的复制，并发现复制失败不仅仅是偶然事件。2016年，《自然》杂志对1500名科学家进行了一项调查，51%的受访者认为科学正在经历一场复制危机。这一反应迫使美国国防高级研究计划局在2018年创建了一个项目，以研究社会科学中复制失败的规模和范围。尽管人们对复制失败的担忧越来越多，但人工复制研究的样本数量很少。在最多复制研究的科学学科－心理学中，进行直接、独立复制的研究总数不到400次，且样本不成比例地为选定的作者或特定的子领域的经典论文。大多数复制来自社会心理学和认知心理学的子领域，但推测发展心理学、临床心理学和教育心理学都有类似的复制失败率。

为了扩展和多样化复制数据，研究人员开发了一种替代方法来估计一篇论文复制成功的可能性。预测市场已成为估计论文可复制性的主要方法。它招募数千名专家审稿人来预测大样本论文的可复制性，让专家押注一篇已发表的论文是否会在未来的人工复制测试中成功复制。该方法的高精度使预测市场成为估计论文可复制性的有效解决方案，预测市场的规模优于人工直接复制，但它们仍然需要多年来构建。

机器学习模型可以从研究的叙述文本或从数字特征,如P值或研究的样本量来预测可重复性。这两种模型都做出了准确的预测，与预测市场相当。基于文本的模型量化了一篇论文中的叙述，包括对研究设计的描述和对结果的解释，而这并不是仅仅基于数值特征的模型所捕获的。此外，文本量化可以实现自动化，比手工从手稿中提取数字特征更具可伸缩性和可重复性。

在这里，我们使用一种基于文本的机器学习方法来预测心理学文献复制成功的可能性，涵盖了20年来在顶级心理学期刊的两大子领域发表的所有论文：临床心理学、认知心理学、发展心理学、组织心理学、人格心理学和社会心理学。样本共包括来自6173个不同机构的26349名不同作者的14126篇论文，共被引用1222292篇，共被媒体提及27447次。

分析过程如下：首先简要描述了我们的基于文本的机器学习模型，该模型之前已经验证过，并证明可以准确预测手动复制结果。然后，应用该模型来预测心理学文献的可复制性，并着眼于调查可复制性如何在不同的心理学子领域、研究方法、论文发表前和发表后的特征,以及作者团队的专业知识和经验之间发生变化。

数据和方法

我们的分析使用了不同的书目、作者和媒体报道数据来源。用于生成数据的数据和代码已存入开放科学框架（30）。表1列出了在分析中使用的大量期刊出版物样本，包括5份专门子领域的期刊和多领域期刊《心理科学》。人格研究出现在所有的顶级期刊上，如果“人格”一词出现在标题或摘要中，我们就将文章标记为人格研究，而不管它们出现在哪个期刊上。其次，由于《心理科学》发表了所有子领域的工作，我们根据主要发表的论文作者的子领域专业期刊对其论文进行了分类。总样本包括14126篇论文。所有数据均按照出版商的使用条款和英国版权法收集。

机器学习模型

机器学习模型使用了随机森林和逻辑回归模型的集合来预测一篇基于论文文本的论文复制的可能性。该模型在之前使用严格的样本测试进行了验证，并显示出其与预测市场相当的准确性。创建模型的过程如下：

步骤1，将单个英语单词转换为向量。我们使用word2vec（31）训练了一个模型，在2000年至2017年期间发表的200万篇社会科学出版物摘要（32）。其目标是在社会科学文献的背景下，将个体词汇相互联系起来，并在一个200维的向量中定量地表示这种关联。

步骤2，将文章转换为向量。将训练样本（表2）中每篇论文中的归一化频率字乘以其对应的200维字向量，得到一个表示论文文本内容的论文级向量。

步骤3，使用随机森林和逻辑回归的集合，从其论文级向量中预测每篇论文的复制结果（通过/失败）。为了确定一项研究是否重复，使用了所有复制研究中报告的一个共同度量——复制团队对该研究是否重复或不重复的总结判断（“是”或“否”）。

步骤1到3一起创建了一个机器学习模型，该模型使用论文的文本/叙述来预测其复制的可能性，被称之为“复制分数”。

该表列出了用于训练机器学习模型，以基于手稿中的文本预测论文的估计可复制性的手动复制研究。共有388项可用的心理学手工复制研究报告了通过/失败的复制结果。第2列列出了进行复制或平台的协调复制项目的简短名称（完整描述见SI附录，补充文本1）；第3列列出了每个项目/平台所涵盖的心理学子领域；第4列列出了每个项目/平台的研究数量；第5列计算成功复制的研究数量。

注意，对于一些复制项目，这里包含的研究数量可能与原来的数量不同（e。g.,RPP进行了100项研究，而这里只包括了96项研究）。ML：许多实验室；RPP：再现性项目：心理学；RRR：注册复制端口；JSP：社会心理学杂志：SSRP：社会科学复制平台；LOOPR：人格复制的生活结果；核心：合作开放科学检索；PFD：心理文件抽屉。

机器学习模型的性能和鲁棒性测试

首先,采用三重交叉验证，以避免在训练集中的过拟合。三次交叉验证的ROC曲线下平均面积（AUC）为0.74。其次，我们还评估了对训练样本组成不平衡的影响。非实验性研究（分别为81%和19%）。我们手动编码每个研究的研究方法，并计算模型的性能分别为实验（n=314，AUC=0.74）与非实验性研究（n=72，AUC=0.69）。较小的非实验研究样本显示出性能差异，但性能水平仍可用于本文的后续分析。第三，我们评估了与迁移学习相关的问题。当模型在一个领域中开发并应用于另一个领域时，就会发生迁移学习。这种做法出现在我们的研究中，因为预测样本包含了来自两个子领域的论文，即临床心理学和发展心理学。从这两个子领域的人工复制是很少的，可能还需要十年才能积累一个相当大的样本（44）。所以，该模型是否可以为临床心理学和发展心理学的论文提供有效的估计。为了解决这个问题，我们遵循了协议，并进行了三个独立的稳健性测试。

(i)我们使用现有数据在社会和认知心理学模拟迁移学习过程和估计使用的性能模型训练的手动复制一个心理学子领域预测另一个心理学子领域的复制失败，并比较模型的预测实际手动复制数据预测子领域。具体来说，我们研究了一个仅基于社会心理学（n=256）的论文开发的模型——训练样本的主要子领域——将如何在认知心理学（n=90）的论文上执行。我们发现，这种迁移学习到认知心理学的表现（AUC=0.72）与该模型应用于社会心理学时（基准AUC=0.73）相当。这为心理学各子领域之间的迁移学习成功提供了支持。

（ii）有人可能会认为，文本模型从社会心理学到认知心理学的成功转移并不能保证其成功转移到临床心理学或发展心理学。为了回答这个问题，我们比较了子字段的主题和文本相似性。之前的机器学习，研究表明，基于文本模型的迁移学习更成功在训练领域和应用程序领域中的文本特性更为相似（47）。因此，如果社会－临床和社会－发展相似性与社会-认知相似性相当或更高，我们就可以期望该模型在临床或发展中与在认知心理学中一样有效。为了测量两个子领域之间研究主题的重叠，我们从MAG数据库中收集了测试样本中每篇论文的研究主题。为了测量两个子字段之间的文本相似性，我们计算了余弦相似度和单词移动距离（WMD）。结果显示，临床论文（57%）和发展论文（56%）与社会论文的主题重叠比例高于认知论文（42%）。此外，所有三个子字段显示与社会心理学相同的文本相似性（余弦相似度=0.90到0.91，WMD=0.24至0.26）。因为(i)，建立在社会心理学上的模型可以转移到认知心理学。

（iii）我们评估了预测的复制分数如何与临床心理学或发展心理学论文中的样本量和P值相一致。这两项指标都是可靠性的指标，因为随着样本量的增大和P值的减小，假阳性的风险会降低（5,48,49）。我们强调，预测模型不包含关于样本大小和P值的信息，因为训练样本中的论文被剥夺了所有的数字或统计数据。因此，如果一篇论文的样本量和P值与我们的模型的复制预测相关联，它将为该模型在临床心理学或发展心理学中的适用性提供独立的支持。在程序上，我们从预测中随机编码了临床心理学和发展心理学研究的随机子集。为了获得样本量，我们从论文中提取了参与者的数量。如果一篇论文有多个研究，我们取论文中所有研究的平均样本量，P值。我们从论文摘要中找到论文的第一个主要主张，并提取与该主要主张相关的检验的P值。结果表明，预测的复制得分与原始样本量（r（97）=0.31，P=0.002）和原始P值（r（91）=-0.42，P<0.001）均有秩级相关性。由于预测模型不包含样本量和P值信息，因此结果不是同义反复的，并支持了将该方法应用到临床心理学和发展心理学。

出版前和出版后的措施与可复制性的相关性

为了检验复制可能性和一篇论文的其他可观察发表特征之间的联系，我们构建了在复制文献中讨论的一篇论文的可观察特征的几个关键度量。例如，复制的结果被假设与研究人员的专业知识或一篇论文的媒体关注有关。我们收集了5个捕获论文特征的度量，3个捕获作者团队特征的发表前度量，以及两个捕获读者对研究反应动态的发表后度量。发表前的特点包括论文的第一和资深作者的经验和能力，（衡量）累积的出版物数量，引用影响发表之前发表的焦点论文，和机构声望基于第一和资深作者的大学（在2021年QS世界大学排名）。资深作者被定义为在焦点论文发表时累计被引用最多的作者。发表后的特点包括焦点论文的被引次数和媒体提及次数。媒体提及量由Altmetric计算。所有其他措施都来自维度，它批准了我们在这个项目中使用的数据。为了控制这些指标中的发表年龄和子领域的差异，我们通过将观察到的得分除以其子领域和发表年份的平均值来标准化所有指标。

使用上述校准的机器学习模型，我们预测了可复制性预测样本中每一篇论文的复制分数（n=14,126），可以被解释为复制分数。利用它，进行三组分析：首先，我们确定了估计复制率的子场差异，弥补了以前小样本手工复制的差距；其次，我们比较了实验和非实验研究设计之间的复制率；第三，我们研究了可复制性如何与论文发表前和发表后的其他特征相关。

图1所有14,126篇心理学论文的预测复制得分分布(范围=0.10-0.86，平均=0.42，中位数=0.41，SD=0.15、偏度=0.31)。

注意，首先该分布与人工复制的推测和预测市场的最新预测大致一致，表明更多的心理学论文将会人工复制失败。在过去20年的心理学出版物中，复制分数的估计分布表明了类似的模式。其次，最近在心理学中对复制失败的关注提高了复制的严谨性。当我们绘制20年期间的平均复制分数时，我们发现复制分数相对稳定。平均复制分数从2000年和2010年下降了大约10%，然后从2010年和2019年上升到与2000年大致相同的水平。第三，我们发现汇集心理学子领域的复制分数掩盖了重要的子领域差异。下面，我们将详细介绍心理学中不同子领域的复制率的差异。

按子字段划分的比较复制分数

为了解决子字段之间的可复制性变化的关键问题，我们按子字段分析了总体分布。只有三个子领域（n≥30）：人格心理学（77%成功率，n=30）、认知心理学（50%成功率，n=90）和社会心理学（38%成功率，n=256）。

图2.比较六个心理学子领域以及实验研究和非实验研究之间的可重复性

图2A显示了按心理学的六个主要子领域分组的复制分数的分布。所有的分布都是正态的（abs（偏态）<0.50），除了发展心理学，它是轻微的右偏态（偏态=0.62）。我们发现，人工复制所报告的可复制率与估计的结果相一致。由我们的模型产生的复制分数。人格心理学的估计重复性得分最高（平均=0.55），其次是组织心理学（平均=0.50）。认知心理学（平均=0.42）得分高于社会心理学（平均=0.37）。发展心理学和临床心理学的子领域在手工复制研究中受到的关注相对较少，其平均值分别为0.36和0.44。为了排除上述模式反映的是期刊差异而不是子领域差异的可能性，我们使用发表多个子领域的单一期刊《心理科学》重复了分析。我们将《心理科学》的论文分配到作者倾向于发表的专门期刊的子领域。例如，如果作者主要发表在《应用心理学杂志》上，那么作者在《心理科学》上的工作就被归类为组织型心理学。如果一篇论文有多个作者，我们就选择所有作者中最常见的子域。利用这种方法，2431篇论文被成功地分为6个子领域。图2B可视化了心理科学中可复制性的子领域差异。这种模式在很大程度上反映了以前在专业期刊上观察到的模式(图2A).唯一的例外是，认知心理学的平均可复制性略低于临床心理学(t=-4。18，P<0.001)，且在专业期刊上和心理科学上较高（t=2.34，P=0.02）。这些发现证明即特定学科的子领域可以有很大差异。因此，对复制率的描述应该针对一个子域，而不是针对整个学科。这一发现还可以帮助确定复制失败的可能决定因素和研究改进策略。

图3.各心理学子领域的实验研究百分比和子领域的平均复制得分

按方法划分比较复制分数

与复制得分中子领域变异可能原因是论文中使用的研究方法。将预测样本中的论文分为两组：使用实验方法的论文和使用非实验方法的论文。如果一篇论文的标题、摘要或章节标题中有“实验”这个词，那么它就被认为是实验性的。如果“实验”这个词没有出现在论文的任何部分，那么论文是非实验性的。利用该方法，我们成功地在预测样本中分类了8159篇论文。然后，我们计算了每一组的平均复制分数。图2c显示了实验性实验论文与非实验性论文的估计平均复制分数。结果显示：1、实验论文和非实验论文在可复制性方面存在系统的差异。非实验论文的平均复制得分显著高于实验研究的平均值。非实验论文的总体平均复制得分为0.50，而实验论文的平均复制得分为0.39。在训练样本中也证实了差异，非实验研究的复制成功率为69%，实验研究为37%。2、实验与非实验性研究概括了六个子领域，在每个子领域中，非实验论文在所有六个子领域的平均复制得分显著高于实验研究。3、图3表明，实验比例较小的子领域（人格心理学和组织心理学）有较高的平均复制分数的倾向。一个显著的例外是发展心理学，它的平均可复制性是最低的，但其60%的研究是非实验性的。可解释为，发展心理学关注的是儿童和生命课程，这两个领域的研究人员在可控的环境下收集大样本时面临着独特的困难。

出版前和出版后与可复制性相关

我们研究了一篇论文的可复制性和其他特征之间的关系。其中三个特征发生在发表之前（作者的累积发表数量、引文影响和机构声望），另外两个特征发生在发表之后（焦点论文的引文影响和媒体报道）。使用曼恩-惠特尼秩和检验比较了这些指标。在训练样本中手动复制失败，以及论文可能是不太可能在预测样本中复制。复制分数前10%的论文被定义为有可能复制的论文，复制分数后10%的论文被定义为不太可能复制的论文。我们选择集中在比较底部和预测数据的前10%，因为机器学习模型在其分布的这些点上最准确。分析从“研究人员的能力”开始，这被假设为与复制失败相关。图4A和B表明，在训练和预测样本中，研究者的能力和复制成功之间存在统计学上显著的关系。

图4.一篇论文的可复制性与其他指标之间的关系

图4A和B表示复制成功与第一作者和资深作者的出版物数量之间的正相关关系，以及复制成功与作者的引文影响之间的正相关关系（所有P<0.001）。其次，我们没有发现统计学上显著的证据表明可复制性与第一或高级作者的机构在训练样本或预测样本中的威望有关，所有P>0.1(图4C).这一结果表明，一作的记录，而不是合作记录，可以预测其可复制性。第三，我们发现论文的研究之间的累积被引数没有显著差异。在我们的训练样本中进行了失败的复制(图4D,P=0.51).这一发现与之前的研究结果一致。相比之下，我们发现在预测样本中，可能重复的论文收到的引用次数明显少于不可能重复的论文(图4D)。总之，引文数量与论文的可复制性关系很弱，并且不能诊断论文的可复制性。

我们用可复制性来检验媒体报道。在现实中，主流媒体倾向于强调那些发现令人惊讶的、违反直觉的结果的研究。一小部分重复的样本表明，研究的发现越令人惊讶，复制的可能性就越小。我们的分析发现了类似的结果。训练和预测样本都表明媒体的关注和复制的成功是负相关(图4E)。

讨论

本研究使用了一个机器学习模型，通过量化科学手稿中的文本来预测其复制的可能性。该模型使我们能够在20年的时间里，对在心理学的六大子领域期刊上发表的几乎所有论文进行第一次复制普查。该分析集中于估计整个学科的可复制性，以及关注复制率如何因子领域、实验和非实验方法以及研究论文的其他特征而变化。

该方法的一个核心优势是它的规模和范围。结果也显示，复制的成功率与研究方法相关，所有实验方法的实验工作的重复率都显著低于非实验方法子域和实验工作较少的子域复制得相对较好。虽然可复制性与研究人员的经验和能力呈正相关，但研究质量的其他指标，如作者的大学声望和论文的引文，与可复制性没有关联。研究结果强调了学者和公众在评估研究和学者时都需要谨慎行事，并使用发表前和发表后的指标作为研究质量的标准。我们还将媒体的注意力与论文的可复制性联系起来。媒体在创造公众的科学形象和知识民主化方面发挥着重要作用，但它往往被激励去报道违反直觉和引人注目的结果。因此，根据其媒体报道来决定一篇报纸的优点是不明智的。

研究在几个方面是有限的。首先，我们预测的所有论文都来自顶级期刊，未来的研究可以检查来自较低级别期刊的论文，以及们的可复制性如何与发表前和发表后的指标相关联（70）。其次，对可复制性的估计只是近似的，未来的研究可以将一个子领域的覆盖范围扩大到多个期刊，或者对使用其他方法（如预测市场）衍生的子领域模式进行交叉检查。第三，用于开发该模型的训练样本使用了几乎所有可用的手动复制数据，但仍然缺乏对某些心理学子领域的直接手动复制。虽然我们进行了一系列的迁移学习分析，以确保模型的适用性超出了训练样本的范围，但在临床心理学和发展心理学的子领域，即缺乏实际的手工复制研究，应该明智地进行。未来的研究可能有几个方向：1)我们的复制分数可以与其他方法相结合，如预测市场（16）或非基于文本的机器学习模型，以进一步完善心理学研究的估计；2)研究的设计可以重复，在其他学科进行重复普查；3)复制分数可以进一步与其他感兴趣的指标进一步相关联。用于生成数据的数据和代码已存储在[开放科学框架](https://osf.io/f5sxn/).

参考文献：A discipline-wide investigation of the replicability of Psychology papers over the past two decades.