随着行政数据库和患者登记注册数据库的有如雨后春笋般地出现,研究人员越来越容易获得大数据。这些数据集的大样本量使对罕见结果的研究更加容易,并提供了确定国家估算值和地区差异的潜力。因此,JAMA外科编辑和审稿人已经收到使用大数据去试图回答临床和政策相关问题的稿件。但是,没有数据库完全没有偏倚和测量误差的。对于更大的数据,一些随机现象也可能产生统计学差异的结果,并且由于窄的置信区间,统计推断也可能产生一个精确但是不准确的结果。上述问题在所有临床研究都会遇到,但是在大样本、复杂数据库中,这些方法学的问题将被放大。
关于研究人群的注意事项
对读者而言,重要的是要了解研究者是如何得到研究人群。通常,它根据纳入标准从一个非常庞大的源来源人群筛选得到。统计报告时,应当清楚地描述纳入和排除参与者的流程图,其中要写出包括排除的人数和排除原因。同样,如果研究是纵向研究,应报告失访现象和失访人数,这样有助于读者理解该研究可能存在着选择偏倚。
关于研究方法和样本量注意事项
研究的目的和结局指标应在数据收集和分析之前确定。如果作者正在寻找两组人群之间某些变量的差异,则该差异及其置信区间的统计分析也应预先计划。除了统计结果(例如回归系数,P值)外,效应值的差异应报告以患者为中心、具有临床意义且可解释的差异。不幸的是,在没有预先计划的情况下挖掘大型数据集会导致无意的、常常是错误的结论。统计学差异(P值)与样本量有关,并且如果样本量足够大,则各组之间的即使差异很小,也会显示统计学上的差异来(P<0.05),然而这些差异很可能在临床上没有意义。