关于典型相关分析和偏最小二乘法在脑-行为关联应用中的稳定性

数据集之间的关联可以通过多变量方法如典型相关分析(CCA)或偏最小二乘法(PLS)来发现。CCA/PLS关联的可解释性和泛化性的必要条件是其特征模式的稳定性。然而,经验性表征发现,CCA/PLS在高维数据集中的稳定性值得怀疑。为系统地研究这些问题,我们开发了一个生成建模框架来模拟合成数据集。我们发现,当样本量相对较小但与典型研究相当时,CCA/PLS关联高度不稳定且不准确;这种不稳定性和不准确性不仅体现在关联的强度上,更重要的是体现在关联的底层特征模式上。我们在两种神经影像模态和独立数据集(n ≈ 1000和n = 20,000)中证实了这些趋势,发现只有后者包含了足够的观测数据,能够在影像衍生特征和行为特征之间建立稳定的映射。我们进一步开发了一个功效计算器,用于提供多变量分析稳定性和可靠性所需的样本量。总的来说,我们描述了如何限制过拟合对CCA/PLS稳定性的不利影响,并为未来的研究提供了建议。本文发表在Communications Biology杂志。 (可添加微信号1996207406318983979082获取原文,另思影提供免费文献下载服务,如需要也可添加此微信号入群,原文也会在群里发布)。

介绍

     在各学科中,发现高维数据集之间的关联是一个日益重要的主题。例如,大型人类神经影像学计划收集了数千名受试者的丰富多变量脑成像测量数据,并配对心理测量和人口统计学测量数据。一个主要目标是确定存在将个体行为特征变异与脑成像特征变异联系起来的关联,并描述构成这种关联的主要潜在特征模式。一种广泛使用的映射多变量关联的统计方法是在两个数据集(如脑成像和心理测量)中定义线性加权的特征组合,其中权重集(对应于变异轴)被选择以最大化数据集间的关联强度(图1)。然后可以检查每个数据集的权重分布,以了解特征如何形成关联。根据关联强度是通过相关性还是协方差来衡量,该方法分别被称为典型相关分析(CCA)或偏最小二乘法(PLS)。CCA和PLS在包括基因组学和神经影像学在内的科学领域广泛使用。

图片

图1:CCA、PLS及用于研究其性质的生成模型概述
     a 两个多变量数据集X和Y分别投影到各自的权重向量上,得到每个数据集的单变量得分。选择权重向量使得X和Y得分之间的相关性(对于CCA)或协方差(对于PLS)最大化。

     b 在主成分坐标系中,每个数据集内的方差结构可以通过其主成分谱来概括。为简单起见,我们假设这些谱可以用幂律模型。CCA发现集合间相关性,忽略方差结构,可以看作有效地使用白化数据(参见方法)。

     c 集合间的关联编码在X和Y得分的关联强度中。

     d 数据集X和Y被共同建模为多变量正态分布。集合内方差结构(b)对应于对角线上的块,数据集之间的关联(c)编码在非对角线块中。

     由于固有的测量噪声和样本量相对数据维度通常较小,分析这种高维数据集具有挑战性。尽管CCA/PLS的效用已经得到充分证实,但在数据集特性的特征体系中仍存在关于稳定性的开放性挑战。稳定性意味着CCA/PLS解决方案的元素,如关联强度和权重分布,可以在来自同一人群的独立观察集合中可靠估计。如果可用的样本量不足以正确约束模型,则可能出现不稳定性或过拟合。CCA/PLS中不稳定性和过拟合的表现包括关联强度膨胀,样本外关联强度明显低于样本内,以及在不同研究中大幅变化的特征分布/模式。此外,虽然在正态性假设下有一些关于CCA采样特性的理论结果,但人们通常需要采用重采样方法来计算置信区间等不确定性估计。模型的稳定性对于可复制性、泛化性和可解释性至关重要。因此,了解CCA/PLS解决方案的稳定性如何依赖于数据集特性非常重要。

      在神经影像学中,最近有人提出,在进行多变量"全脑关联研究"时需要数千名受试者才能获得可重复的结果,因为效应量通常很小。这一说法在该领域引发了近期的争论。一些论文认为可以预期更大的效应量,通过集中设计和队列可以减少样本量要求,并且交叉验证可以避免关联膨胀。然而,所有先前的研究和评论主要基于实证发现,并主要关注效应量。在CCA/PLS的背景下,仍不清楚解决方案的元素如何差异地依赖于数据集特性,以及CCA与PLS作为不同的方法如何在不同的数据集体系中表现出差异的稳健性。

      为系统地研究这些问题并超越实证发现,我们开发了一个生成统计模型来模拟具有已知潜在关联轴的合成数据集。从生成模型中采样允许量化估计的和真实的CCA/PLS解决方案之间的偏差。我们发现,CCA/PLS解决方案的稳定性需要比已发表的神经影像学研究中常用的更多的样本(每个特征)。当个体观察数量太少时,估计的关联强度过高,估计的权重可能不可靠且不具有可解释性的泛化性。CCA和PLS在依赖性和稳健性方面存在差异,部分原因是与CCA权重相比,PLS权重表现出与主要主成分轴的更高相似性。我们分析了两个大型最先进的神经影像-心理测量数据集,人类连接组计划和英国生物银行,它们与我们的模型表现出类似的趋势。在考虑功能性和扩散MRI两种神经影像模态的特征时,我们也观察到类似的趋势。这些模型和实证发现,结合对脑-行为CCA文献中估计稳定性的元分析,表明通过典型的神经影像学CCA/PLS研究发现的关联模式容易不稳定。最后,我们应用生成模型开发了算法和软件包,用于计算CCA/PLS的估计误差和所需样本量。我们以对未来研究应用和解释CCA/PLS的实际建议结束。

结果

      CCA/PLS通过分析数据集间的协方差矩阵来描述多变量数据集之间的统计关联(图1,补充说明1)。对于每个数据集,形成一个称为得分的特征加权组合,通过定义权重向量来优化这些得分向量之间的关联强度。CCA和PLS分别使用皮尔逊相关系数和协方差作为其目标函数。PLS也被称为PLS相关[PLSC]或PLS-SVD)我们分别称相应的优化值为集合间相关和集合间协方差。我们还计算载荷,定义为CCA/PLS得分与数据集中每个原始变量之间的单变量皮尔逊相关(跨观测)。我们注意到存在替代术语。CCA/PLS得分(如上所述)也可称为变量;权重(如上所述)也可称为向量;载荷(如上所述)也可称为参数。对于CCA,得分向量之间的相关性,即集合间相关,也称为集间相关或典型相关。

跨数据集多变量关联的生成模型
      为分析CCA和PLS稳定性的依赖关系,我们需要生成具有已知、可控属性的随机观测合成数据集。因此,我们开发了一个生成统计建模框架GEMMR(多变量关系的生成建模),它允许我们设计和生成合成数据集,研究CCA/PLS解决方案对数据集大小和假设协方差的依赖性,估计文献报告的CCA中的权重误差,并计算限制估计误差所需的样本量(见方法)。

      为描述GEMMR,首先注意到CCA/PLS的数据包括两个数据集,给出为数据矩阵X和Y,每个都有多个特征和相等数量n的观测。我们用方差谱中的幂律衰减来模拟集合内协方差,我们将其限制在经验一致的范围内(补充图1)。然后,GEMMR通过在每个集合中定义相关的权重轴来嵌入集合间关联。最后,使用集合内和集合间协方差组成X和Y的联合协方差矩阵(图1d),与该联合协方差矩阵相关的正态分布构成了我们的生成模型。

      我们系统地研究了数据集属性的生成模型参数对CCA/PLS稳定性的下游影响:特征数量,假设的集合间相关的总体(或真实)值,描述集合内方差的幂律,以及样本量。权重向量被随机选择并受到约束,使得X和Y得分至少解释各自集合中平均主成分一半的方差。为简单起见,我们将当前分析限制在单一集合间关联模式。我们使用"特征数量"一词来表示X和Y中的总特征数量。

估计误差的样本量依赖性
      使用我们生成模型的替代数据集,我们描述了CCA/PLS解决方案多个元素的估计误差。这里我们使用每个特征的样本数作为有效样本量测量,这考虑了经验数据集中广泛变化的维度。脑-行为CCA/PLS文献中的典型样本量约为每个特征5个样本(补充图2a)。生成模型的一个关键参数是关联强度的总体值或真实值,即随着样本量趋于无穷大,通过样本内和样本外估计都会得到的值。重要的是,像正态分布的均值一样,关联强度的总体值rtrue独立于用于估计它的样本集合和样本量,而是构成了观测值抽取自的分布的参数。因此,rtrue是一个明确定义的自由参数,可以独立于样本量进行变化。

      我们首先评估是否可以稳健地检测到显著关联,用统计功效量化,发现在典型样本量和总体效应大小下功效相对较低(图2a,b)。其次,我们评估了关联强度的收敛性(图2c,d)。我们通过对给定样本集合执行CCA/PLS来计算(样本内)关联强度,并通过交叉验证计算样本外关联强度(见方法)。对于足够大的样本量,观察到的集合间相关收敂到其假设的真实(总体)值(图2c,d)。关联强度的样本内估计高估了其真实值(图2c,补充图3和4)。需要足够的样本量,取决于其他协方差矩阵属性,以限制关联强度的误差。交叉验证估计低估真实值的程度与样本内估计高估的程度相似(补充图5)。

图片

图2:CCA和PLS的样本量依赖性

       a, b 对于足够大的样本量,检测非零集合间关联强度的统计功效收敛到1。阴影区域显示了25个协方差矩阵的95%置信区间,这些矩阵代表具有指定rtrue但不同(真实)权重向量的分布。

      c, d 集合间相关的样本内(实线)估计接近其假设的真实(总体)值(虚线)。

      e, f 权重误差(量化为生成模型的真实权重与从CCA/PLS在样本集合上估计的权重之间的"1-绝对余弦相似度",分别对X和Y计算并取两者中的较大值),

      g, h 得分误差(测量为估计得分和真实得分之间的"1-绝对皮尔逊相关",这些得分是通过将估计权重和真实权重应用于共同的测试数据获得的)

      i, j 以及载荷误差(测量为估计载荷和真实载荷之间的"1-绝对皮尔逊相关")在足够大的样本量下接近0。原始数据特征通常与主成分得分不同,但由于这两种数据表示之间的关系无法约束,我们在这里计算所有载荷时都参照主成分得分。此外,为了比较重复数据集间的载荷,我们为共同的测试集计算载荷,就像CCA/PLS得分一样。左列和右列分别显示CCA和PLS的结果。对于所有指标,收敛依赖于真实(总体)集合间相关rtrue,如果rtrue较低,收敛会更慢。注意,颜色代码表示真实(总体)集合间相关,对应于c-d中的虚线水平线。曲线显示了100次从25个不同生成模型(具有指定rtrue但变化的真实(总体)权重向量)中抽取给定样本量的观测集合的CCA/PLS估计的平均值和95%置信区间(见方法)。X和Y特征空间维度为8。

      除了关联强度外,CCA/PLS解还提供了编码每个数据集中关联性质的权重,以及代表分配给每个单独观测(例如受试者)的潜在值的得分。最后,一些研究报告了载荷,即原始数据特征与CCA/PLS得分之间的相关性(补充图6a, b)。我们发现,权重、得分和载荷的估计误差随样本量单调减小,对于更强的总体效应大小,减小得更快(图2e-j)。

      我们使用"每特征样本数"作为有效样本量参数,以考虑实际中数据集具有非常不同的维度这一事实。其他人之前已经探索了改变样本和特征数量的影响。图3和补充说明2显示,CCA的功效和误差指标在每特征样本数方面参数化得很好,而对于PLS则只是近似。尽管如此,由于每特征样本数可以说是最直观的解释,我们对CCA和PLS都以每特征样本数的形式呈现结果。

图片

图3:每特征样本数是一个关键的有效参数

     pX和pY分别表示X和Y的特征数量。颜色色调代表真实集合间相关rtrue,饱和颜色用于pX = 2,较浅的颜色用于更高的pX(在本图中,pX ∈ {2, 4, 8, 16, 32, 64}),其中pX(pY)指X(Y)数据集中的特征数量。在左3列中我们固定pX = pY,而在右3列中我们固定pX + pY = 64(因此pX ≠ pY)。在CCA(第一列)中,对于给定的rtrue,当以每特征样本数参数化时,不同特征数量的功效和误差指标曲线非常相似。在PLS(第二列)中,可以观察到相同的趋势,尽管相同色调的曲线(即具有相同rtrue但不同特征数量)的重叠程度较差。当使用"样本数/(特征数量)1.5"时(第三列),曲线重叠得更多。在右3列中可以看到相同的趋势,其中pX ≠ pY。第一行的曲线是25个协方差矩阵的平均值,这些矩阵代表具有指定rtrue但不同权重向量的分布。其他所有行的曲线都是在相同的25个协方差矩阵和100次从x轴所示样本量的观测集合中抽取的平均值。面板a-f、g-l、m-r、s-x和y-ad分别显示功效、相对关联强度误差、权重误差、得分误差和载荷误差。

权重误差和稳定性

      图2量化了样本量如何影响CCA/PLS汇总统计量。接下来,我们关注权重的误差和稳定性,因为它们在CCA/PLS分析中描述哪些特征携带集合间关联方面至关重要。图4a, b说明了当使用典型的样本与特征比时,CCA/PLS权重向量如何表现出高误差的例子。我们系统地测量了权重稳定性,即跨独立样本集合估计的权重的一致性,作为样本量的函数。在小样本量时,CCA的平均权重稳定性接近0,最终随着观测数量的增加收敛到1(即完全相似)(图4c)。PLS表现出与CCA显著的差异:即使在低样本量下,平均权重稳定性也有相对较高的值,但在不同总体模型之间变异性很大(图4d),此时权重误差很高(图2f)。

图片

图4:获得良好权重估计需要大量观测

      a, b 真实集合间相关设为rtrue = 0.3的现实示例。只要样本量足够大,估计的权重就接近假设的真实(总体)权重。b 对PLS而言需要更多观测。c, d 权重稳定性,即100次重复中所有配对之间权重的平均余弦相似度,随观测数量增加向1(完全相同的权重)增加。对PLS而言,即使观测很少,权重稳定性也可能很高。真实集合间相关设为rtrue = 0.3。100条虚线中的每条代表一个具有不同假设权重向量的不同协方差矩阵。实线显示了虚线的平均值。e, f 对于不同特征数量和真实集合间相关rtrue的数据集,PLS (f) 的PC1相似性比CCA (e) 更强。图中显示了不同特征数量的合成数据集的相对PC1相似性,相对于与每个合成数据集维度匹配的随机选择向量的预期PC1相似性。阴影区域表示6个特征空间维度、10个协方差矩阵和100次从与这些协方差矩阵相关的多元正态分布中抽取指定样本量(x轴)观测集合的95%置信区间。

      为评估权重误差对假设的真实集合间相关和特征数量的依赖性,我们估计了获得<10%权重误差所需的观测数(补充图7)。随着特征数量的增加,所需样本量更高,随着真实集合间相关的增加,所需样本量更低。我们还观察到,按这个指标,所需的样本量可能远大于CCA/PLS研究中的典型样本量。

PLS中权重的PC1相似性

      在低样本量时,PLS权重平均表现出高误差(图2f),但相对稳定性较高(图4d)。这表明PLS权重存在系统性偏差,偏向于一个不同于真实潜在关联轴的轴(图4b)。我们量化了PC相似性,即估计的权重向量与主成分轴之间的余弦相似度。我们发现,对于不同特征数量和真实集合间相关,PLS(而非CCA)的权重与PC1的相似性很强,特别是在低样本量时,PLS权重向量表现出对PC1的强烈偏差(图4e, f)。

载荷与权重的比较

      除权重外,载荷也提供了衡量每个考虑变量重要性的指标。我们发现对CCA而言,载荷的稳定性和误差随样本量的变化类似于权重。相比之下,即使在误差很高的低样本量下,PLS载荷也极其稳定,表明存在强烈偏差(补充图8a, b)。对CCA和PLS而言,描述集内方差的幂律越陡峭,载荷越稳定(补充图8c, d)。接下来我们评估载荷是否偏向主成分轴(补充图8e, f)。在小样本量下,PLS的载荷和权重以及CCA的载荷都强烈类似于更主要的主成分轴。因此,无论真实的集合间关联如何,集内方差都可能对CCA/PLS结果产生强烈偏差(补充图9)。

实证脑-行为CCA/PLS

      我们的生成建模框架中的这些现象在实证数据中是否成立?我们关注两个最先进的人群神经影像数据集:人类连接组项目(HCP)和UK Biobank (UKB)。两者都提供多模态神经影像以及广泛的行为和人口统计指标,两者都被用于基于CCA的脑-行为映射。HCP数据被广泛使用且质量最先进,而UKB是最大的公开可用人群级神经影像数据集之一。

      我们分析了HCP的两种模态,静息态功能MRI (fMRI)(N = 948)和扩散MRI (dMRI)(N = 1,020,补充图10a-d),以及UKB的fMRI(N = 20,000)。分别从fMRI和dMRI提取功能和结构连接特征。经过特定模态的预处理(见方法)后,数据集被去除混杂因素并降维至100个主成分(补充图11),遵循先前的CCA研究。我们重复形成两个不重叠的受试者子样本,大小最高达受试者的50%,并评估CCA/PLS解(图5,补充图12和13)。

图片

图5:实证人群神经影像数据集的CCA和PLS分析

       对于两个数据集的CCA和PLS分析,通过单侧置换检验均检测到显著的关联模式(a、c、e、g的p值分别为0.001、0.003、0.001和0.001)。关联强度随子样本大小单调递减(第1列橙色,第3列绿色)。置换数据(nperm = 1000)的关联强度以灰色显示(第1列和第3列分别带橙色和绿色轮廓)。当样本量足够大时,橙色和绿色曲线偏离灰色曲线,对应显著的p值。注意这些曲线在UKB数据中明显分离,但在可用受试者数量更少的HCP数据中不明显。圆圈表示使用所有可用数据的估计值,下方同色垂直线表示从置换数据获得的相应95%置信区间。在(a)中,我们还叠加了其他使用降至100个主成分的HCP数据的研究报告的集合间相关。交叉验证的关联强度以红色(第1列)和蓝色(第3列)显示,置换数据集的交叉验证估计强度以灰色显示,第1列和第3列分别带红色和蓝色轮廓。三角形表示使用所有数据的交叉验证关联强度,下方同色垂直线表示从置换数据获得的相应95%置信区间。交叉验证关联强度总是低于样本内估计,并随样本量增加而增加。对UKB(但尚未对HCP),交叉验证关联强度收敛到与样本内估计相同的值。在第二和第四列(面板b、d、f和h),权重稳定性(根据公式(17)计算)随样本量增加而增加,对UKB和HCP数据集的PLS分析略有增加,而对HCP数据集的CCA分析保持较低。PC1权重相似性(根据公式(18)计算)对CCA较低但对PLS较高。所有分析都使用100个随机抽取的不同大小子样本(x轴)进行。对于每个子样本大小和重复,我们创建了两个不重叠的受试者集,并使用这些不重叠对计算权重稳定性。

      样本内关联强度随子样本大小增加而减小,但仅在UKB大样本量时明显收敛到交叉验证关联强度(图5a、c、e、f)。图5a叠加了先前使用100个特征/集的HCP数据发表的CCA结果,进一步证实了关联强度随样本量显著降低。HCP权重稳定性对CCA和PLS分别保持在低值和中等值(图5b、d、f、h)。相比之下,UKB权重稳定性接近1(完全稳定)。此外,对所有数据集,CCA的PC1相似性(公式18)接近0,但PLS权重明显更高(图5b、d、f、h)。最后,载荷表现出与权重相似的依赖性,具有更高的PC1相似性(补充图14)。使用从扩散MRI提取的非常不同的特征时,观察到非常相似的行为(补充图10a-d)。

      所有这些实证结果与上述合成数据分析一致(图2和4)。不同神经影像模态和特征的CCA/PLS分析之间的整体相似性(图5,补充图10)表明,在典型数据体系中,采样误差是CCA/PLS解的主要决定因素。这些结果还表明,使用UKB规模的数据集可以获得具有大量特征的稳定CCA/PLS解。

      我们还探索了将数据降至不同于100的PC数。已提出多种方法来确定最优PC数(见讨论)。这里,作为示例,我们使用了文献44中的最大-最小检测器。该方法建议HCP使用68个脑成像和32个行为维度,这产生了更高的交叉验证关联强度和更高的权重稳定性。在UKB中,我们分别改变保留的神经影像和行为主成分数量,并计算CCA/PLS关联强度(补充图15)。我们发现,当保留越来越多的行为PC时,估计的关联强度强烈上升,但仅达到约10个。然而,对神经影像PC的情况在方法间有所不同。对CCA而言,保留更多神经影像PC可以改善关联强度,最多达到约20-40个后趋于平稳。另一方面,对PLS而言,顶部PC(≈5-10)足以使关联强度趋于平稳。总的来说,这些结果表明,谨慎、特定模态的降维策略可能有助于增强CCA/PLS稳定性。

仅每个特征的样本量就可预测已发表的CCA强度
       接下来,我们通过分析使用CCA进行脑-行为关联的已发表神经影像文献,更广泛地检查了实证数据集CCA分析的稳定性和关联强度。从31篇发表的文献中报告的100个CCA(见方法),我们提取了观测数量、特征数量和关联强度。大多数研究每个特征使用<10个样本(图6a和补充图2a)。将报告的集合间相关作为每个特征样本量的函数叠加在我们生成模型的预测之上,显示大多数已发表的CCA与一系列真实集合间相关兼容,从约0.5下降到0(图6a)。值得注意的是,尽管这些研究使用各种数据集和模态,但报告的集合间相关可以仅通过每个特征的样本量很好地预测(R2 = 0.83)(参见补充说明2和补充图22中相应的缩放定律)。我们还注意到,报告的CCA可能在某种程度上存在向上偏差,因为研究人员可能探索了许多不同的分析并报告了具有最高集合间相关的分析。

图片

图6:人群神经影像文献中报告的CCA可能经常不稳定

      a 从文献中提取集合间相关和每个特征的样本数,并叠加在生成模型对各种真实集合间相关rtrue的预测上。仅使用每个特征的样本数就可以通过线性回归预测报告的集合间相关(R2 = 0.83)。我们还估计了每个报告的CCA的权重误差(用色条编码)(详见补充图16)。

      b 每个报告的CCA的估计权重误差分布沿y轴显示。对许多研究而言,权重误差可能相当大,这表明从解释权重得出的结论可能不够稳健。权重误差估计程序见补充图16。

      接下来,我们询问从已发表的CCA中可以在多大程度上估计权重误差。由于这些原则上是未知的,我们使用生成建模框架来估计它们。我们通过以下方式做到这一点:(i)生成与给定经验数据集大小相同的合成数据集,并扫描假设的真实集合间相关在0到1之间,(ii)选择那些估计的集合间相关与经验观察相匹配的合成数据集,以及(iii)使用这些匹配的合成数据集中的权重误差作为经验数据集中权重误差的估计(补充图16)。这导致我们考虑的每个已发表的CCA研究在匹配的合成数据集中产生一个权重误差分布。这些分布的平均值以颜色叠加显示在图6a中,分布范围显示在图6b中(另见补充图2b)。这些分析表明,由于样本量不足,许多已发表的CCA研究可能具有不稳定的特征权重。

所需样本量的计算器

      给定特定的数据集属性,要获得稳定的CCA/PLS结果需要多少观测值?可以基于多个标准的组合来做出这个决定,同时限制统计功效以及关联强度、权重误差、得分误差和载荷误差的相对误差。要求至少90%的功效,并且其他指标最多允许10%的误差,我们通过插值图2中的曲线确定了合成数据集中相应的样本量(见补充图17a和方法)。结果如图7所示(另见补充图18、19和20)。例如,当真实的集合间相关为0.3时,需要数百到数千个观测值才能达到指定的功效和误差界限(图7a)。每个特征所需的样本量作为真实集合间相关的函数大致遵循幂律依赖,当真实集合间相关较低时,所需样本量强烈增加(图7b)。我们还评估了常用的稀疏CCA方法所需的样本量(补充图21,补充说明3);然而,对稀疏CCA的深入分析超出了本研究的范围。

图片

图7:所需样本量

      获得至少90%功效和最多10%关联强度、权重、得分和载荷误差的样本量。所示估计受组内方差谱约束(这里aX + aY = -2,其他值见补充图19)。

a 假设真实集合间相关rtrue = 0.3(其他值见补充图18a-d),需要数百到数千个观测值才能达到目标功效和误差水平。阴影区域显示了25个协方差矩阵的95%置信区间,这些矩阵编码了rtrue = 0.3的CCA/PLS解,但权重向量不同。

b 所需观测数除以X和Y中的总特征数随rtrue变化。对于rtrue = 0.3,CCA需要每个特征约50个样本才能达到目标功效和误差水平,这比通常使用的要多得多(参见补充图2a)。对于给定的rtrue,每个点代表不同数量的特征,并略微抖动以提高可见性。只有当CCA和PLS都有可用的模拟时,才显示给定维度pX的值。每个rtrue的水平线代表可用特征数量的平均值。

      最后,我们制定了一个简洁、易于使用的模型参数与所需样本量之间关系的描述。为此,我们对所需样本量的对数拟合了一个线性模型,使用总特征数和真实集合间相关的对数作为预测变量(补充图17)。我们还包括了组内方差谱衰减常数|aX + aY|的预测变量。我们发现,简单的线性模型方法对CCA和PLS产生了良好的预测能力,我们使用分半预测进行了验证(补充图17c,d)。

讨论

      我们使用了生成建模框架来揭示CCA/PLS解的稳定性如何依赖于数据集属性。我们的发现强调CCA/PLS的稳定性和统计显著性不必重合(另见45)。此外,对于小样本量,样本内关联强度严重高估其真实值,而样本外估计则更为保守。样本内关联强度估计也不应被视为CCA/PLS模型预测有效性的证据。重要的是,当观测数量较少时,控制关联潜在特征模式的估计权重向量通常与真实权重不相似(图4),这阻碍了可推广性和可解释性。PLS权重也显示出与第一主成分轴的一致相似性(图4e,f),因此PLS权重稳定性不足以确立对真实集合间关系的收敛。这些相同的陷阱也出现在最先进的脑-行为关联实证数据集中。

     CCA/PLS已成为揭示神经影像和行为测量之间关联的流行方法。主要兴趣在于解释权重或载荷,以理解携带脑-行为关联的脑成像和行为特征的概况。然而,我们已经表明,权重和载荷的稳定性取决于足够的样本量,而样本量又取决于真实的集合间相关。对于典型的脑-行为关联研究,真实的集合间相关有多强?虽然这取决于手头的数据集,原则上是事先未知的,但参考文献28报告了平均交叉验证(样本外)集合间相关为0.17,而30认为使用有针对性的方法可以实现更高(r > 0.2)的样本外集合间相关。我们的分析为这个问题提供了洞见,并强调了数据集维度的重要性。我们在UKB中发现集合间相关收敛到约0.5。由于包含的行为测量包括广泛的类别,这个集合间相关可能处于预期范围的上限。此外,我们发现大多数已发表的脑-行为CCA研究,每个特征的样本数远大于10,似乎只与≤0.3的集合间相关兼容,这处于最近实证探索所建议的上限范围。

      假设一个相对较大的0.3的集合间相关,我们的生成模型仍然意味着CCA解的稳定性需要每个特征约50个样本。对于具有数百个特征的设计,这需要数千个受试者,这与文献28一致。许多已发表的脑-行为CCA研究不符合这一标准。此外,在HCP数据中,我们看到明显迹象表明可用样本量太小,无法获得稳定的解决方案——尽管HCP是迄今为止最大和最高质量的神经影像数据集之一。另一方面,在UKB中,我们使用了20,000名受试者,CCA和PLS结果稳定收敛。由于UKB级别的样本量远远超出了典型神经影像研究可行收集的范围,这些发现支持了广泛共享数据集聚合的呼吁。

     为了简单和可处理性,我们的研究中必须做出一些假设。为了方便起见,我们选择在每个集合的主成分坐标系中表示由生成模型生成的所有数据。这不影响模拟的有效性。此外,我们的合成数据呈正态分布,这在实践中通常不是这样。我们假设每个数据集中组内方差遵循幂律衰减模型,我们在许多实证数据集中确认了这一点(补充图1),尽管这可能并不普遍适用。然后我们假设存在单一的跨模态关联轴,而实际上可能存在多个。在后一种情况下,理论考虑表明需要更大的样本量。此外,我们假设X和Y集合的跨模态关联轴也能解释各自集合内相当大的方差。虽然这在一般情况下不一定如此,但一个在集合中解释很少方差的轴通常不会被认为是相关的,可能无法与噪声区分开来。重要的是,尽管有这些假设,经验脑-行为数据集与合成数据集显示出类似的样本量依赖性。

     特征数量是稳定性的重要决定因素。在我们的实证数据分析中,我们将数据减少到100个主成分。需要明确的是,我们的目标是说明CCA和PLS在给定实证数据集(即由100个PC组成的数据集)上的行为。我们不主张在实践中应采用取前100个(或任何其他固定数量)主成分的方法。相反,需要考虑降维以减少稳定估计所需样本数量的目的,与降维导致较低典型相关从而反过来需要更高样本量以实现稳定性的效应之间的权衡。已经提出了多种方法来确定PCA和CCA的适当组件数量。将其中一种方法应用于HCP数据产生了稍好的收敛性(补充图10e-h)。另外,可以使用先前的领域特定知识来预选假设与手头问题相关的特征。

     已经提出了几种相关方法来潜在地规避标准CCA/PLS的缺点。除了这里考虑的PLS-SVD或PLS相关之外,还存在许多不同的PLS变体。它们都产生相同的第一个集合间成分,尽管注意一个变体PLS回归有时使用未归一化的第一个Y权重向量实现。高阶集合间成分在PLS变体之间有所不同。在整个论文中,我们只考虑了第一个集合间成分,它是给定数据可能的最高集合间协方差。注意,由于稳定估计所需的样本量取决于(真实)集合间协方差,我们预计所有高阶集合间成分比第一个需要更高的样本量,独立于PLS变体。正则化或稀疏CCA方法(补充说明3)对权重向量施加惩罚以缓解过拟合。我们观察到其相对优势可能取决于真实权重概貌(补充图21)。我们还在补充说明4中提供了降秩回归的分析,表明它的行为类似于CCA和PLS(补充图23)。我们注意到,对稀疏CCA、降秩回归和其他方法(如非线性扩展)的完整表征超出了本研究的范围。

     总之,我们提出了一个参数化的CCA和PLS生成建模框架。它允许前瞻性和回顾性地分析CCA和PLS估计的稳定性。我们最后提供了9条在实践中使用CCA或PLS的建议(补充表1)。

补充表1. 在实践中使用CCA和PLS的考虑因素和建议。

编号

关键词

建议

1

样本量和特征数量的重要性

样本量和数据集中的特征数量对CCA和PLS的稳定性至关重要。

2

显著性检验

非零关联的显著性并不一定表明估计的权重是可靠的。

3

关联强度误差

样本内关联强度估计过高。样本外估计更保守。样本内关联强度估计也不应被视为CCA/PLS模型预测有效性的证据。

4

权重和载荷

观测数量不足时估计的权重和载荷不可靠。对于PLS,交叉载荷的估计比载荷需要更少的观测。

5

与PC1的相似性

在PLS中,权重可能显示出与第一主成分轴的一致相似性。

6

具有欺骗性的权重稳定性

对于PLS,权重可能看似稳定,围绕第一主成分轴散布,只有在非常大的样本量下才会收敛到真实值。

7

子抽样

可以使用子抽样来检查经验数据中估计关联强度的稳定性:不同子样本大小的相似结果表明稳定性。

8

报告

应报告观测数量、特征数量(降维后)以及获得的关联强度(样本内和交叉验证)。组内方差谱也很有用。

9

所需样本量

通常,我们建议CCA至少每个特征50个样本,PLS更多(取决于方差谱)。随附的Python包(GEMMR)可用于计算给定数据集特征所需的推荐样本量。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值