评估机器学习应用中已确定样本量的大小

 适当的样本量对于获得精确可靠的研究结果至关重要。在机器学习 (ML) 中,样本量不足的研究容易出现数据过拟合,产生真实效果的可能性较低,而样本量的增加会提高预测的准确性,但在达到一定样本量后可能不会引起显著变化。现有的使用标准化均值差、效应量和统计功效来确定样本量的方法,由于计算错误或缺乏实验细节,可能存在偏差。本研究旨在设计评估机器学习研究中样本量的标准。我们使用模拟数据集和三个真实数据集,检查了平均效应量和总效应量以及五种机器学习方法的性能,以得出样本量的标准。我们从16个样本开始,通过随机抽样系统地增加样本量,并检查样本量对分类器性能和两种效应量的影响。使用十折交叉验证来量化准确性。本文发表在BMC Bioinformatics杂志。可添加微信号1996207406318983979082获取原文及补充材料,另思影提供免费文献下载服务,如需要也可添加此微信号入群,思影提供脑影像数据分析及课程,如感兴趣也可添加微信咨询)。

结论:

     结果表明,当数据集在两类之间具有良好的区分能力时,随着样本量的增加,效应量和分类精度会增加,而效应量的方差会缩小。相比之下,不确定的数据集具有较差的效应量和分类精度,在模拟数据集和真实数据集中,增加样本量都不会改善这种情况。良好的数据集在平均效应量和总效应量方面表现出显著差异。基于上述发现,我们推导出两个标准,通过结合效应量和机器学习精度来评估确定的样本量。当样本量具有适当的效应量(≥ 0.5)和机器学习精度(≥ 80%)时,则认为该样本量是合适的。在达到适当的样本量后,样本量的增加不会带来益处,因为它不会显著改变效应量和精度,从而导致良好的成本效益比。我们认为,这些实用标准可以作为作者和编辑评估所选样本量是否足以进行研究的参考。

背景:

      一个合适的样本量是设计一项忠实和符合道德的研究的第一步,也是最关键的一步。通常,科学研究可以分为小型(或样本不足)和大型研究。由于I型或II型错误的可能性更高,小型研究产生真实效应的概率较低。具体来说,Knudson和Lindsey报告称,当样本量从25增加到99时,零阶相关和偏相关的II型错误从7%增加到21%,从29%增加到85%。小样本研究的结果特别容易受到微小分析操纵的影响,从而产生虚假阴性结果。据报道,由于随机误差、选择性分析、选择性结果报告和发表偏倚,获胜者效应会夸大小样本量研究中的效应量。因此,样本量应足够大,以产生科学和统计学意义。建议科学家进行大型研究,因为统计功效更高,可以产生统计学上真实的效应。由于夸大效应量和I型错误的可能性较小,大型研究的结果在统计学上比小型研究更稳健。然而,足够样本量的问题仍有待解决。事实上,人们普遍认为,大样本量不能代替好的假设检验; Friston建议,产生统计学显著结果的最小样本量是16个受试者,具有良好的效应量。

     在机器学习中,一些研究评估了样本量对准确性的影响。例如,Vabalas研究了一系列模拟子数据集(20-1000)对支持向量机 (SVM) 和逻辑回归 (LR) 性能的影响。他们报告称,小样本量导致更高的准确率(> 95%),而大样本量(100-1000)则使准确率大幅下降至 60% 至 70% 之间。相比之下,Cui和Gong发现,样本量的增加(从20个增加到700个)提高了使用 MRI 数据的预测准确率。事实上,Faber和Fonseca证明,将样本量增加到一定范围之外可能不会显著改善结果。总而言之,由于过拟合或随机效应,较小的训练样本量可能会夸大机器学习的准确性,而大规模研究需要更多的资金资源和时间。因此,可靠且高效的研究结果需要适当的样本量,但没有评估样本量的实用指南,尤其是在机器学习性能的条件下。

      相比之下,样本量可以根据先前的研究进行统计估计,作为先验知识。例如,可以使用基于先前研究的标准差值、标准化均值差、统计功效和效应量来确定样本量 。然而,由于效应量计算不当、缺乏实验细节和发表偏倚,这些统计方法可能会测量不准确的样本量。样本量不足会导致统计功效不显著,从而对真实效果和研究结果的可重复性产生不利影响。先前的研究报告称,效应量用于计算统计功效,例如,大的效应量会增加功效,而小的效应量会降低功效。通常,科学家使用Cohen方程来测量由两类的均值和方差组成的效应量。然而,两类之间的均值和方差可以通过两种方式计算:(1)均值和方差的平均值;(2)数据的均值和方差的总值。先前的方法没有关注效应量的类型(总效应量和平均效应量)以及它们在样本量计算和功效分析中的差异,这可能会对这些测量的结果产生不利影响。Button指出,轻微的分析操作可能会导致真实效果发生重大变化,尤其是在样本量较小的情况下。因此,准确量化效应量的参数,包括平均效应量和总效应量之间的差异,对于测量适当的样本量至关重要。

      在本研究中,我们提出可以将效应量(平均效应量和总效应量)和机器学习的性能结合起来评估样本量。具体而言,我们通过使用模拟数据集和三个真实数据集,检验了效应量(平均效应量和总效应量)与机器学习分类器性能之间的关系,以得出两个标准来检查所选样本量是否合适。

方法

模拟数据

      我们使用等式1生成模拟数据集,通过操纵不同样本量(范围从16到2500)的效应量,并使用100个变量,来检验效应量(平均效应量和总效应量)与机器学习分类器性能之间的关系。在这里,我们通过改变等式1中的均值和方差值来操纵数据集的效应量。我们选择16个样本作为最小样本量,因为之前的研究认为16到32个样本是小样本量。首先,通过基于Cohen量表生成两种数据集来研究不良和良好效应量对机器学习分类器准确性的影响:不良数据集(效应量在0.01到0.2之间)和良好数据集(效应量在0.5到1.4之间)。其次,我们使用效应量作为数据集质量的间接指标。我们操纵了一定比例的所有特征在一系列样本量(在16到2500之间)中的方差,并检查它们对机器学习性能的影响。因此,首先生成具有组间所有特征相似方差的数据。我们通过将不良数据集中一定比例(10%、30%或50%)的特征替换为来自良好数据集(效应量>0.5)的相同数量特征,在其中一组的特征方差中引入扰动这个过程可以改变被替换特征的方差,并导致更好的总效应量,间接反映数据集质量。因为10%、30%和50%是样本中总特征的比例,它们与样本量无关。

图片

      这里,Ds是模拟数据,μ和σ表示数据的均值和方差,而ε表示随机噪声。

真实数据准备 

       为了从小样本到大样本理解效应量与ML性能之间的关系,我们进一步将研究从模拟数据集扩展到真实数据集。我们使用了三个数据集,心律失常数据集、心脏病发作数据集和睡眠数据集,来推导确定适当样本量的标准。第一个数据集,心脏病发作数据,是从UCI机器学习知识库的Cleveland数据集下载的(http://archive.ics.uci.edu/ml/datasets/Heart+Disease)。该数据集由303名患者(206名男性和97名女性,平均年龄为54岁)和76个属性组成,记录于1981年5月至1984年9月之间。由于患者在两类中分布不均:心脏病发作几率较小(138名患者)和心脏病发作几率较大(165名患者),我们只选择了276名受试者的数据来平衡每类中的样本。此外,已经表明,76个属性中的14个属性足以获得适当的分类结果。因此,我们在本研究中选择了14个属性。

   第二个数据集是PhysioNet的MIT-BIH心律失常数据集(https://physionet.org/content/mitdb/)。该数据集是为了评估和设计检测心律失常的算法而由Beth Israel Hospital Arrhythmia Laboratory在1975年至1979年间开发的。它包含48个半小时的双通道ECG记录(采样率=360Hz,带通滤波从0.1到100Hz)。该数据集有109,000个心跳和188个属性,提供了室性和室上性心律失常、传导异常、起搏器节律和伪迹的信息。至少有两名心脏病专家对所有这些心跳进行了人工审查。该数据集被分为五类,以评估心律失常识别算法的有效性:正常(N)、室上性(S)、室性(V)、融合(F)和不确定(Q)心跳。在本研究中,我们使用了两类心跳(正常和不确定心跳),每一类都包括2500个心跳。由于数据集中存在缺失值,我们只使用了100个属性。

      第三个数据集是一个睡眠数据集,其中包含了影响月经期间睡眠周期的因素的信息,如睡眠质量、唤醒时间、入睡时间、头痛、腹胀和注意力集中。该数据集包括120份睡眠日记,每份日记代表一名女性一个月的睡眠周期数据。数据集分为两类:睡眠周期异常和正常的女性。总的来说,该数据集由3360个样本(120份日记×28天)和57个连续和分类变量组成。然而,在删除缺失值后,我们使用了3000个样本(每类1500个)。

     所有数据集都被随机划分为不同样本的子集,从16开始,直到整个数据集。在不同的样本数下,我们测量了效应量和ML性能。我们重复了这个过程100次,以模拟随机抽样过程。我们选择80%的准确率作为阈值,这是基于之前的样本量计算方法,即功效分析。在功效分析中,功效是拒绝错误的零假设的概率,足够的样本量应该维持在80%或更高的水平。

平均和总体效应量的计算

采用Cohen的公式来计算给定样本的效应量,如下所示:

图片

平均效应量
跨样本的平均均值和标准差

图片

图片

基于平均方差的合并标准差(PSD)

图片

通过应用平均合并标准差和均值来测量Cohen d

图片

跨每个样本量的平均效应量

图片

总体效应量
计算总体均值和标准差

图片

采用总体均值和方差计算合并标准差

图片

用参数的总体值计算Cohen d

图片

     这里,d是Cohen's d效应量,Spooled是合并标准差,sd1和sd2是类特定的标准差,x1和x2是类1和类2的值,i和j都用作样本和变量的索引,vs是变量大小,ss1和ss2分别是类特定的样本数。此外,avg和g项用于描述均值和方差的平均值和总体值。通常,在Cohen d的量表中,0.2的效应量代表微不足道的差异,而0.5或更高的效应量则认为是显著差异[19]。为了获得一个完美的Cohen's d,x1,x2,s1和s2必须是确定性的;然而,它们通常取自以前的研究[16,19,55]。此外,在计算总体和平均效应量时,均值和方差也表现出显著差异。因此,所得出的样本量偏向于参考研究,这是由于效应量(总体或平均)的选择、实验设计的不同或不完整的细节、发表偏倚或小效应量造成的[24]。本研究没有使用以前的研究,而是根据给定的数据反向计算效应量,并计算总体和平均效应量。

      关于ML算法,我们比较了五种常用的监督ML方法——SVM、LR、决策树(DT)、神经网络(NN)和朴素贝叶斯(NB),以检验不同样本量(从小到大)对ML性能的影响。我们采用十折交叉验证来量化准确性。

使用模拟数据集关联效应量和机器学习性能

      我们通过操纵效应量(好和差)来模拟数据,以检查它们对具有一系列样本量的分类器性能的影响。图 1a和b说明了效应量的操纵对分类器的性能有显著影响。当总效应量和平均效应量大于 0.9 时,大多数分类器的性能都超过 95%,除了朴素贝叶斯在小样本量下表现出较差的性能。此外,在小样本量中,准确性和两种效应量的方差都很大,随着样本量的增加而显著降低。相比之下,图1c和d表明,当数据集的总效应量和平均效应量小于 0.2 时,机器学习性能较差(小于 80%)。与好的数据集一致,差的数据集在小样本量时也表现出机器学习准确性(约 5% 到 100%)和效应量(约0.1034到0.1078)的样本量内方差较高。

图片

Fig. 1 (a) 模拟数据集在不同样本量下的ML性能表现(b)良好效应量;

(c) 模拟数据集在不同样本量下的ML性能表现(d)较差效应量。

数据质量操纵对机器学习性能和效应量的影响

      我们通过操控数据集的质量(10%,50%,和100%)来研究ML性能和效应量。图2显示,提高数据质量显著增加了ML性能,从大约20%提升到98%,效应量也从大约0.1提升到0.9。较低的数据质量(10%)表现出不到70%的性能,而将数据质量从50%提升到100%则显著提高了超过70%的准确性。此外,10%质量的数据集效应量较小,大约为0.2,而50%和100%质量的数据集效应量则分别大约为0.55和0.9。总的来说,数据集的数据质量与效应量和准确性呈直接关系。

图片

图2.具有不同数据质量(10%、50% 和 100%)数据集的分类器性能和效应量。

注意:a.u. 是任意单位

样本量对分类器准确性和效应量的影响:两个表现良好的心律失常和心脏病发作数据集

      为了了解不同样本量(从小到大)对真实数据集中效应量和机器学习性能的影响,我们使用了包含 5000 个样本的大型心律失常数据集。图3显示了具有 95% 置信区间的机器学习性能 (a)、样本量之间准确性的变化 (b) 以及平均效应量和总效应量 (c)。可以看出,无论分类器如何,分类准确率都随着样本数量的增加而增加(图 3a)。当样本数量小于 120 时,除 NB 外的所有分类器都表现出较大的准确性方差(在 68% 到 98% 之间),而将样本量从 120 增加到 2500 则将准确性差异降低到 85% 到 99% 之间(图 3a)。此外,NN(神经网络) 和 SVM (支持向量机)的准确率超过 90%,并且在所有样本量下都优于其他分类器。LR 在不同样本量中表现出显著的准确性方差,而 NB 在分离两类方面效率低下。考虑到样本量之间的变化,结果表明,小于 120 的样本的准确率相对变化较大,从 42% 到 1.76%(图 3b)。相反,对于所有分类器,大于 120 的样本的准确率变化相对较小,从 2.2% 到 0.04%。关于效应量,总效应量和平均效应量约为 0.8,这表明两类之间具有良好的分辨能力(图 3c)。然而,小样本量(特别是16、32和64)描绘了样本量内两种效应量的较高方差,随着样本量的增加而显著缩小。 

图片

图3.心律失常数据集的机器学习性能 (a)、样本量之间性能的变化 (b) 以及平均效应量和总效应量 (c)。注意:a.u. 是任意单位

      此外,图 4a 描绘了所有分类器在整个样本量范围内对心脏病发作数据集都具有良好的性能(超过 80%),除了 DT 和 LR,因为它们在小样本量(16 和 32)下的性能约为 78% 到 79%。与所有分类器在不同样本量下的性能相比,DT的性能较差(< 85%)。小样本量(67% 到 93% 之间)的样本量内方差显著较高,由于样本量的增加,降低到 83% 到 92% 之间。此外,小样本量(16-64)之间的准确率变化为 2.37% 到 29.6%,在样本量从 60 增加到 138 后逐渐降低到 5.57% 到 0.37% 之间(图 4b)。与心律失常数据集相比,心脏病发作数据显示总效应量和平均效应量之间存在显著差异(图 4c)。平均效应量在 0.7 到 0.8 之间,而总效应量小于 0.2。此外,16 和 32 的样本量在样本量内显示出两种效应量的显著方差,随着样本量的增加而显著降低。

图片

图4.心脏病发作数据集的分类器性能 (a)、样本量之间性能的差异 (b) 以及平均效应量和总效应量 (c)。注意:a.u. 是任意单位

      这两个数据集都表明,增加样本量提高了机器学习性能(> 80%)并减少了不同分类器之间的差异。心律失常数据集的平均效应量和总效应量均大于 0.5,而心脏病发作数据集只有平均效应量大于 0.5。

样本量对分类器准确性和效应量的影响:一个不确定的睡眠数据集

      我们使用具有不确定属性的睡眠数据集来研究样本量的影响。图 5 显示了具有 95% 置信区间的机器学习性能 (a)、样本量之间准确率的变化率 (b) 以及依赖于样本量的平均效应量和总效应量 (c)。机器学习结果表明,具有小样本量(16-120)的睡眠数据集的性能在 51% 到 60% 之间,而将样本量增加到 120 以上则将性能从大约 60% 提高到 67%。NB 在所有样本量中表现出最差的性能,介于 51% 到 57% 之间(图 5a)。小样本量(16-120)之间的准确率变化为 0.73% 到 14.14%,随着样本量的增加(120-1500,图 5b)逐渐降低到 7% 到 0.17%。整个睡眠数据集的总体性能在整个样本量范围内都很差(低于 70%),这表明所有分类器都无法分离这两类。除了机器学习性能之外,平均效应量和总效应量随着样本量的增加而降低,从 0.35 降至 0.168,从 0.14 降至 0.1,效应量的方差分别从 0.43 降至 0.16 和从 0.248 降至 0.035(图 5c)。总而言之,睡眠数据集的平均效应量和总效应量都小于 0.5,根据 Cohen 量表,这被认为是较差的效应量。

图片

图5.操纵不确定数据集的样本量以评估效应量 (a) 和机器学习性能 (b),以及样本量之间准确率的变化率 (c)。注意:a.u. 是任意单位

讨论

     本研究通过使用模拟数据集和三个具有不同数据属性的真实数据集,检验了样本数量对效应量和机器学习分类器性能的影响,以设计评估适当样本量的标准。模拟结果表明,与具有较差效应量的数据集相比,具有良好效应量的数据集可以提高机器学习性能。此外,数据质量显著提高了整个样本量范围内的性能和效应量,尤其是小样本量。另一方面,心律失常和心脏病发作数据集表明,由于良好的效应量和较高的分类准确率,表现良好的数据集在两类之间具有良好的区分能力,而随着样本量的增加,两种效应量和机器学习性能的方差都会缩小。重要的是,与其他数据集相比,心脏病发作数据集的平均效应量和总效应量之间的差异显著更高。相比之下,对于不确定的数据集,整个样本量范围内的效应量和分类准确率都很差。由于随机抽样的性质,效应量在相同的样本量中会有所不同。特别是在 16 个小样本量中,所有数据集的效应量和机器学习准确率都发生了巨大变化。然而,在具有良好效应量的临界样本量之后,准确率会达到平台期。基于上述发现,我们通过结合效应量(平均效应量和总效应量)的传统统计数据和机器学习方法的准确性,得出了两个评估样本量的标准。

使用模拟数据集在不同数据质量下效应量和机器学习性能之间的关系

      我们研究了良好和较差的效应量(平均效应量和总效应量)如何影响不同分类器的性能。结果表明,良好的效应量(大于 0.8)表现出较高的性能(> 90%),而较差的效应量(小于 0.2)则表现出较差的机器学习性能(< 80%)。先前的研究报告称,良好的效应量表明两组之间存在较大差异,而较小的效应量则存在微不足道的差异 。同样,机器学习技术评估多个变量以区分两个或多个组,例如患者与健康对照组或一种疾病与其他疾病。因此,当效应量较大时,机器学习分类器可以轻松区分这两组。此外,我们的结果表明,数据质量显著提高了效应量和机器学习性能。先前的研究报告称,小样本量数据不适合研究,因为统计功效低、真实效应夸大以及分析操作轻微。在本研究中,我们通过用良好数据替换其中一类较差数据的 10%、30% 和 50% 来操纵其质量。我们的模拟结果表明,较差的数据质量(10% 到 30% 之间)表现出夸大的较差效应量(从大约 0.1 到 0.3)和较差的机器学习性能(从大约 20% 到 70%),尤其是在小样本量的情况下。然而,提高数据质量(50% 和 100%)表现出效应量(> 0.5)和机器学习准确率(> 80%)的显著提高。重要的是,具有 100% 质量的小样本量显示出良好的效应量(约 0.9)和性能(约 95%),并且在所有样本量中,样本量之间的变化都很小(图 1 和 2)。因此,我们的模拟结果表明,提高数据质量可以显著提高从小样本量到大样本量的效应量和准确率。此外,如果研究具有良好的质量,那么小样本量也可能适合研究,因为它不会受到赢者效应和轻微分析操作的影响。

平均效应量和总效应量计算的差异及其对样本量计算的影响

      先前的研究在功效分析中使用了效应量,并设计了一些样本量计算公式。然而,先前的研究报告称,由于计算不当,这些公式中的效应量计算存在偏差。例如,一项综述研究报告称,由于小样本量、发表偏倚、研究设计不当、效应量计算的参数值选择有偏差(例如来自不同研究的均值和方差)以及缺乏实验信息,效应量可能会被夸大 。先前的研究主要集中在上述效应量的局限性上,尽管没有研究报告平均效应量和总效应量之间的差异对样本量计算的影响。这是第一项检验平均效应量和总效应量之间的差异以计算合适样本量的研究。这项研究发现,与其他数据集相比,模拟数据集和心脏病发作数据集在平均效应量和总效应量之间存在显著差异。我们的结果还表明,其中一个效应量应大于 0.5 才能获得良好的机器学习准确率。因此,必须测量数据集的平均效应量和总效应量,以避免由于它们之间的差异而导致的任何偏差,从而准确计算样本量。

      此外,现有方法中用于计算效应量的值取自先前的研究,这肯定会带来一些潜在的偏差,例如发表偏倚、研究设计不当、参数值(均值和方差)的选择有偏差以及缺乏实验信息 。重要的是,计算中的轻微分析操作可能会导致真实效果发生重大变化 。提出的效应量估计标准使用当前数据,这可能有助于避免在根据先前研究计算效应量时可能出现的偏差。重要的是要注意,基于当前数据的效应量计算可以帮助调解先前研究之间研究设计和参数选择差异所引入的偏差。但是,如果一项研究使用设计或参数选择不足的当前数据,则可能会对效应量产生负面影响,正如本研究中的睡眠数据集所示,该数据集显示出较差的效应量和准确率。尽管如此,可以通过在采取一些步骤(例如增加样本量、添加参数和/或修改研究设计)后评估效应量来使用这些标准来解决这个问题。

样本量评估和两个标准

      常用的样本量确定方法是使用效应量或标准化均值差。然而,由于参数值选择不当,例如从先前研究中选择均值,它们的效应量计算存在偏差。此外,本研究中平均效应量和总效应量显示出显著差异,这在先前的方法中被忽略了,这种差异会对样本量计算产生不利影响。关于机器学习,用于样本量确定的机器学习研究很少。一项综述研究报告称,一些方法,例如曲线拟合、交叉验证和线性判别分析,已被用于研究样本量。然而,由于一些潜在的局限性,例如偏差-方差权衡、过采样、算法和特征大小,结果相当不一致。此外,有一些方法可用于选择数据来训练分类器,例如子模选择。理论上,减少样本会导致更大的方差。然而,如果被移除的样本原本就对数据的大方差有贡献(例如,接近异常值),这可能会导致较小的方差。因此,建立样本选择与效应量之间的一种稳健关系是非常困难的。鉴于效应量依赖于数据,像子模选择这样的方法可以作为在使用提议的标准检查样本大小之前的预处理程序。

      此外,我们在本研究中调查了模拟(良好)和两个公开可用的数据集:心律失常和心脏病发作。几项研究已经使用这些数据集来开发有效的神经网络和机器学习模型来预测心血管疾病。例如,Kim 等人使用 MIT-BIH 心律失常数据集开发了一种新型心律失常分类算法,在对六种类型的心跳进行分类时,平均灵敏度为 98.00%,特异性为 97.95%,准确率为 98.72%。另一项研究使用心脏病发作数据集,通过机器学习模型识别与心脏病发作相关的关键特征,准确率在 81.97% 到 90.16% 之间 。我们在当前研究中使用了这些数据集,因为它们具有很强的区分能力。我们分析了这些数据集在不同样本量范围内的效应量和机器学习性能,这与先前仅在整个样本量上使用机器学习的研究不同。我们发现,由于平均效应量和总效应量较高(≥ 0.5),模拟(良好)和真实数据集的准确率都超过 80%,除了心脏病发作的总平均值(0.2 ≤,见图 3 和 4)。这个结果证实了理论结论,即大于 0.5 的效应量表现出大于 80% 的较高准确率,与样本量无关。但是,当数据的效应量小于 0.5 时,必须有足够的样本或特征,因为效应量和分类准确率会随着样本量的增加而增加。此外,我们建议样本量之间的差异应小于 10%,因为随着样本量的增加,准确率的变化率会降低(见图 3b、4b 和 5b)。结果表明,在所有数据集中,小样本量显示出较大的机器学习性能变化,随着样本量的增加,这种变化降低到微小水平(例如约 0.04%)。相比之下,模拟(较差)和不确定数据集表现出小于 0.2 的较差效应量,而所有分类器的机器学习准确率都小于80%。总体而言,结果表明,样本量的增加显著提高了性能并降低了标准误差。值得注意的是,分类器的性能和效应量在达到临界样本量后是稳定的,尽管不同的分类器可能具有不同的临界样本量。除了准确率之外,我们还检查了其他指标,例如 AUC-ROC、精确率、召回率和 F1 分数,以评估分类器(例如逻辑回归),它们的结果显示出可比的性能(见附加文件 1:补充图 1)。在评估了我们的分析结果后,我们提出了两个评估研究样本量的标准。

      标准 1:计算数据的平均效应量和总效应量。根据 Cohen 量表,确定样本量的效应量之一应等于或大于 0.5。

      标准 2:确定样本量的机器学习准确率应等于或大于 80%。当比较多个样本量时,随着样本量超过所需准确率(例如,准确率 ≥ 80%)的增加,准确率的变化应小于 10%。

       通过这种方式,我们可以预期,在这个实用样本量之后增加样本不会产生有益效果,因为它不会显著改变效应量和机器学习性能。当样本量较小时,单独的效应量对于评估样本量来说并不稳健。这是因为随机抽样效应可能导致给定样本量的效应量存在较大差异。此外,还应注意,本研究中的睡眠数据集表现出较差的机器学习性能和效应量。因此,数据集可能由于三种可能的情况而不符合两个标准,可以通过采取适当的措施来解决这些情况:(1)如果准确率随着样本量的增加而增加,但效应量没有增加,则建议使用更多样本和不同的特征;(2)如果增加样本量不能提高准确率或效应量,这主要是因为特征不具有代表性或信息性。在这种情况下,我们建议可以修改实验设计并获取适当的特征;(3)如果效应量随着样本量的增加而增加但没有通过标准,则需要更多样本。这是因为效应量的提高肯定会导致更好的准确率。

关于该指南的推广和最佳分类器的问题

      生物医学包含不同的数据类型,例如,影像信息学、生物信息学、临床信息学和公共卫生信息学 。这使得通过与其他数据类型-分类器进行比较来推广特定数据类型-分类器的结果成为一项巨大的挑战。相比之下,效应量是一种普遍的、内在的统计属性,与数据类型无关。因此,我们使用了三个具有不同统计效应量(即良好和不确定)的数据集,以便能够比较不同的数据类型-分类器对。尽管不可能将我们的指南推广到所有生物医学应用,但我们相信这两个标准可以在大多数情况下实施。

      关于选择最佳分类器的问题,人们普遍认为不同的分类器具有特定的评估程序 ,并且可能最适合不同的数据类型。因此,朴素贝叶斯在本工作中需要比神经网络更多的样本进行训练,这可能是由于所使用的数据造成的。在不同的应用中已经报道了朴素贝叶斯分类器优于神经网络分类器的类似结果(参见 [49] 的综述)。此外,样本量显著影响分类器的性能,正如我们的结果和一项综述研究中所见,大样本量描绘了分类器之间相对精确和相似的准确率。总而言之,简单大小和数据类型都会影响分类器的性能。因此,没有选择最佳分类器的指南,只有“反复试验”。尽管如此,我们报告了样本量对五个常用机器学习分类器的影响作为示例,并建议考虑效应量来评估样本量。我们的结果确实显示了不同分类器之间一致的准确率模式。进一步的研究可以探索这个最佳分类器问题,为选择机器学习方法提供指导。

结论

      本研究检验了样本数量对效应量(平均效应量和总效应量)和机器学习分类器性能的影响。我们观察到,效应量和机器学习准确率在达到一定样本量后会达到平台期。当数据集具有高质量数据时,小样本量就足以进行研究。重要的是,在计算样本量或功效分析时应考虑平均效应量和总效应量之间的差异。基于上述发现,我们通过结合效应量(平均效应量和总效应量)的传统统计数据和机器学习方法的准确率,得出了两个评估样本量的标准。我们相信,这些标准可以作为参考,以确定所选样本量是否足以满足处理此类研究的作者和编辑的需求。

如需原文及补充材料请添加思影科技微信:1996207406318983979082获取,如对思影课程及服务感兴趣也可加此微信号咨询。另思影提供免费文献下载服务,如需要也可添加此微信号入群,原文也会在群里发布,如果我们的解读对您的研究有帮助,请给个转发支持以及右下角点击一下在看,是对思影科技的支持,感谢!

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值