正则化无监督多核学习集成不同数据类型及其在癌症亚型发现中的应用(2015)

Integrating different data types by regularized unsupervised multiple kernel learning with application to cancer subtype discovery

(文献翻译自用,歉侵删)

摘要:

动机:尽管癌症研究正在进行,但可用的治疗方法在数量和有效性方面仍然有限,并且为个体患者做出治疗决定仍然是一个难题。已建立的子类型主要基于单个数据类型,它们有助于指导这些决策。然而,对涉及各种分子特征测量的多维患者数据的分析可以揭示肿瘤的内在特征。大型项目积累了各种癌症类型的此类数据,但我们仍然缺乏以有意义的方式可靠地整合这些信息的计算方法。因此,我们应用并扩展了当前的多核学习降维方法。一方面,我们添加了正则化项以避免优化过程中的过拟合,另一方面,我们表明甚至可以为每个数据类型使用几个内核,从而减轻用户必须事先为每个数据类型选择最佳内核函数和内核参数的负担。

结果:我们已经确定了五种不同癌症类型的生物学意义亚组。生存分析揭示了鉴定亚型之间生存时间的显著差异,P值可比甚至优于最先进的方法。此外,我们得到的子类型反映了来自不同数据源的组合模式,并且我们证明了只有很少信息的输入核矩阵对集成核矩阵的影响较小。我们的亚型对特定疗法表现出不同的反应,这可能最终有助于治疗决策。

方法:

我们建议应用和扩展多核学习来进行数据集成,并随后进行癌症亚型识别。为此,我们采用了多核学习降维(multiple kernel learning for dimensionality reduction, MKL-DR)框架(Lin et al ., 2011),可以同时实现降维和数据集成。通过这种方式,样本被投射到一个较低维的、集成的子空间中,在那里它们可以被进一步分析。我们表明,这种表示捕获了可用于聚类样本的有用信息,但其他后续分析也可以从这种数据表示中进行。

与以往的方法相比,该方法具有以下优点:该框架在降维方法的选择上具有很高的灵活性,既可以采用无监督降维方法,也可以采用监督降维方法和半监督降维方法。此外,该框架在输入数据类型方面提供了高度的灵活性,即,由于第一步是输入矩阵的核化,这些可以是各种格式,例如序列或数值矩阵。此外,如果没有足够的信息来为数据类型选择最佳核函数或事先为给定核选择最佳参数组合,则可以根据不同的核函数或参数设置为每个数据类型输入多个核矩阵。多核学习方法对信息含量高的矩阵进行自动加权,对信息含量低的矩阵进行自动加权。为了避免过拟合,特别是在有许多不同输入矩阵的情况下,我们通过添加正则化项扩展了MKL-DR方法。该方法一方面基于多核学习,另一方面基于图嵌入框架进行降维。我们添加了一个约束,导致控制核组合的向量的正则化,据我们所知,这是第一次在无监督的多核学习中完成。在接下来的讨论中,我们将这种方法称为正则化多核降维学习(rMKL-DR)。

我们使用五种不同的癌症组来评估我们的方法。所得到的聚类反映了不同输入数据类型的特征,并揭示了聚类之间对特定处理的反应的差异。此外,我们还证明了信息较少的核矩阵对最终结果的影响较小。生存差异的P值比较和相似网络融合/SNF聚类表明,我们的方法在提供更多灵活性的同时产生了可比较的结果。

1.Multiple kernel learning多核学习

通常,多核学习优化一组输入核矩阵{K1,.....,KM}线性组合的权重β来生成一个统一的核矩阵K。

这里,每个输入数据的类型都表示为一个单独的核矩阵。因此,这种方法可以用于具有不同特征表示的数据。

2. Graph embedding图嵌入

MKL-DR是在图嵌入降维框架(Yan et al ., 2007)上进行描述的,这使得大量降维方法得以融合。

在该框架中,投影向量v(用于向一维子空间的投影)或投影矩阵V(用于向高维空间的投影)基于保图准则进行优化:

其中,v为投影向量,W为包含wij和D的相似矩阵(或W')为避免平凡解的约束矩阵。矩阵W和D(或W和W')的选择决定了要实现的降维方案。是使用第一个约束还是第二个约束也取决于这个方案。在下面,我们将重点关注约束(3)的优化问题,但使用约束(4)时的结构是类似的。

 3.Multiple kernel learning for dimensionality reduction用于降维的多核学习

约束优化问题(2)的核化版本可以使用数据的隐式特征映射到高维希尔伯特空间xi\rightarrow \varphi (xi),此外,可以证明最优投影向量v位于数据点xi的跨度,因此v=\sum_{n=1}^{N}\alpha_{n}\varphi (x_{n})。与核函数K\left ( x,x_{i} \right )=\left \{ \varphi \left ( x \right ),\varphi \left ( x^{'} \right ) \right \}和式子(1)一起,得到如下优化问题:

由于我们应用了几个内核,并希望避免过拟合,所以我们添加了约束\left \| \beta \right \|=1,如果我们添加约束\left \| \beta \right \|\leq 1, 这将相当于一个Ivanov regularization,对应的Tikhonov regularization是直接将正则化项\lambda \left \| \beta \right \|_{1}添加到最小化问题中。则rMKL-DR的完整优化问题为:

 

 优化问题可以很容易地扩展到多个维度的投影。在这种情况下,一个投影矩阵A=\left [ \alpha _{1},\alpha _{p} \right ]

被优化,而不是单个投影向量α被优化。然后,根据选择的降维方法,将A与核权重向量β同时进行优化。由于这两个变量难以同时优化,所以采用坐标下降法,即A和β交替迭代优化,直到收敛或迭代次数达到最大值。可以从A的优化开始,然后将β初始化为所有求和为1的核矩阵的权值相等或者从β的优化开始,然后将AA^{T}初始化为I。

利用这个框架,我们应用了降维算法Locality Preserving Projections (LPP) (He and Niyogi, 2004)。这是一种无监督的局部方法,旨在保持每个样本到其k个最近邻居的距离。数据点i的邻域记为N_{i}。对于LPP,则矩阵W和D定义为

 

从现在开始,使用LPP的rMKL-DR方法将被称为rMKL-LPP。聚类过程使用k-means执行。

对于聚类的评估,我们使用silhouette width剪形宽度(Rousseeuw, 1987),这是一种度量,表明对于每个数据点,它与自己的聚类相适应的程度,与它与其他最佳聚类相适应的程度相比。当对所有数据点取平均值时,得到的平均轮廓值提示了聚类的连贯程度以及聚类的分离程度。

整个算法的运行时间可以分为降维步骤和k-means聚类。降维是通过迭代更新投影矩阵A和核权向量β来实现的。β的优化使用半定规划,其中约束的数量在输入核矩阵的数量上是线性的,变量的数量在输入核矩阵的数量上是二次的。然而,如果M\ll N,瓶颈是A的优化。这涉及到解决一个复杂度为O\left ( n \right )^{3}的广义特征值问题。

4.Leave-one-out cross-validation交叉验证

为了评估结果聚类的稳定性,我们采用了留一交叉验证方法,即我们将由降维和后续聚类组成的管道应用于不包括患者i的降维数据集。可以使用proj(x_{i})=A^{T}\kappa ^{i}\beta \in \mathbb{R}^{p}计算遗漏样本的投影,并将该患者分配到降维空间中最接近组均值的聚类中。最后,我们将这种“留一”聚类与使用Rand index的完整数据集聚类进行比较(Rand, 1971)。

5.materials数据

我们使用了来自TCGA (The cancer Genome Atlas, 2008)的五种不同癌症类型的数据,这些数据经过预处理,由Wang等人(2014)提供。肿瘤类型包括多形性胶质母细胞瘤(GBM) 213例,乳腺浸润性癌(BIC) 105例,肾透明细胞癌(KRCCC) 122例,肺鳞状细胞癌(LSCC) 106例,结肠腺癌(COAD) 92例。对于每种癌症类型,我们在聚类过程中使用了基因表达、DNA甲基化和miRNA表达数据。对于生存分析,我们使用了与Wang等人(2014)相同的数量,这意味着,如果有的话,我们使用了到最后一次随访的天数。对于COAD,这些数据与已知的最后存活天数相结合,因为到最后一次随访数据的天数中有许多缺失值。

结果与讨论

 我们将rMKL-LPP应用于5个癌症数据集。对于每个数据集,我们以两种可能的初始化方式运行算法,要么从A的优化开始,要么从β的优化开始。对于这两种降维结果,然后使用k-means与k\in \left \{ 2,...,15 \right \}对集成数据点进行聚类。我们使用聚类结果的平均轮廓值来选择最优的聚类数量。然后利用该准则在两种不同的初始化中选择最佳聚类。在大多数情况下,初始化β会产生稍好的轮廓值,尽管两种初始化的最终结果在识别的集群数量和集群分配方面非常相似。

因此,该方法只有两个自由参数,即降维方法LPP中使用的邻居数和投影子空间的维数。我们的初步分析表明,当选择5到15个最近邻的数量时,聚类是相当稳定的(数据未显示)。我们为所有数据集选择了9,以显示该参数的鲁棒性,尽管就运行时间和内存需求而言,特定的优化是可行的。由于两个原因,将投射到的维度数量固定为5。首先,由于维度的诅咒,具有多个维度的样本往往彼此相距很远,导致稀疏和分散的聚类。其次,我们只想要中等数量的子类型,这样就不需要非常高的维度。

1.与最先进的方法比较

对于每种数据类型,我们使用 Gaussian radial basis kernel function高斯径向基核函数来计算核矩阵,并在特征空间中对其进行归一化。为了研究该方法如何处理单一数据类型的多个输入内核,我们生成了两个场景。第一个包含每个数据类型的一个内核矩阵,因为这导致了三个内核,所以这个场景被称为3K。对于场景2,我们通过改变内核参数来为每个数据类型生成5个内核矩阵,因此,这个场景被称为15K。

rMKL-LPP每一个数据类型的核具有与SNF相当的性能。仅对于KRCCC,当使用一个固定值的γ时,结果不显著(显著性水平为0.05)。从上一篇专栏文章中可以看出,当对内核参数γ使用一组不同的值时,五个数据集中的四个数据集的重要性增加了,这表明如果提供了该方法,该方法能够捕获更多的信息。当从一个γ值移动到五个不同的γ值时,进一步观察到的是最佳集群数量的增加。对此的一种可能解释是,不同的核矩阵提供了更详细的信息,因为根据参数设置,特定患者组之间的相似性可能会变得更强,而其他组之间的相似性会减弱。总体而言,具有5个核矩阵的rMKL-LPP的性能最好。请注意,在计算log-rank检验P值时,rMKL-LPP的簇数越高,通过卡方分布的自由度越高来控制。

rMKL-LPP方法每个数据类型有五个内核,它的另一个优点是不必事先决定数据类型的最佳相似性度量,这使得该方法更适用于开箱即用。此外,结果表明,在某些场景中,每个数据类型有多个内核矩阵来捕获数据点之间不同程度的相似度可能是有益的(这个应用场景中的患者)。如Wang et al(2014)所示,iCluster的运行时间在基因数量上呈指数级增长,如果不进行基因预选,则无法对癌症数据集进行分析。对于SNF,这个预处理步骤是不必要的,而且它比iCluster快得多。我们比较了SNF和rMKL-LPP (15K)中数据集成的运行时间,这两种方法都在聚类步骤之前。使用标准参数设置的SNF方法在几秒钟内完成了每种癌症类型的网络融合过程,而使用rMKL-LPP (15K)的数据集成稍微慢一些,运行时间长达1分钟。然而,就像SNF一样,rMKL-LPP不需要基因预选,这表明使用具有更多样本数量和包含更多核矩阵的数据集在运行时间方面应该是可行的。

2.单个核矩阵对组合核矩阵的贡献

对于每种数据类型有五个核的rMKL-LPP,图1显示了每个核矩阵对最终集成矩阵的影响。

 顶部栏展示了所有核矩阵的贡献相等时的图形。与此相比,我们可以看到,使用参数\gamma =\gamma _{1}*10^{6}的高值的核矩阵对所有癌症类型的影响都非常低。这些结果与经验法则一致,即γ应该在更低的数量级上选择,这被用于选择γ1 (Gartner等人,2002)。此外,所有数据类型都有助于组合核矩阵,我们可以观察到个体癌症类型的差异,例如,对于BIC, DNA甲基化数据具有更高的影响,而对于KRCCC,从基因表达数据中获取的信息更多。

3.鲁棒性评估

为了评估该方法对数据集中微小变化的鲁棒性,我们执行了留一交叉验证方法。图2显示了每个数据源使用一个核矩阵(场景1)和每个数据源使用五个核矩阵(场景2)时聚类的稳定性。尽管我们可以观察到,对于GBM和LSCC,在场景1中聚类结构几乎没有扰动,但对于其他三种癌症类型,完全聚类存在一些偏差,并且留一结果之间存在一些方差。特别是对于COAD数据集,我们观察到,与完整的聚类相比,其中一个集群被分成两个不同的组,这使集群的总数从两个增加到三个,导致兰德指数下降。BIC的情况正好相反,我们有一个由六组组成的完整集群,而在一些“留一”的运行中,其中两组崩溃,导致五个不同的集群,因此,兰德指数降低。然而,当每个数据源使用五个核矩阵时,结果似乎更稳定,这一方面表现为与完全聚类的一致性增加,另一方面表现为遗漏结果之间的方差减少。

为了进一步研究正则化约束的影响,我们将rMKL-LPP获得的结果的鲁棒性与MKL-LPP结果的鲁棒性进行了比较。一般来说,对于样本数量少或预测器数量多的数据集,预计会出现过拟合。因此,我们使用50%的样本从每个癌症数据集生成更小的数据集。在这种情况下,非正则化的MKL-LPP对GBM和KRCCC表现出一些不稳定性,与大多数癌症类型的rMKL-LPP相比,聚类结果之间的方差增加(参见图3)。当样本数量进一步减少时,这一趋势仍在继续,如图4所示。尽管在使用每种癌症类型的完整数据集时,没有正则化的结果似乎是鲁棒的,但我们可以观察到,当样本数量减少时,鲁棒性会下降。然而,正则化方法显示,当每个数据集的一半样本被删除时,鲁棒性仅略有下降,而当仅使用三分之一或四分之一的数据时,鲁棒性仍保持在此水平。这表明rMKL-LPP在MKL-LPP过拟合的情况下具有优势,而在不需要正则化时具有可比性。

4.与已确立亚型的聚类比较

在下文中,我们将进一步研究对GBM数据集使用每种数据类型(场景2)的五个内核矩阵所产生的结果。对于这种癌症类型,存在由其基因表达谱决定的四种已建立的亚型(Verhaak等人,2010)以及一种称为Glioma- cpg岛甲基化表型(G-CIMP)的亚型,这是DNA甲基化聚类中出现的三种亚型之一(Noushmehr等人,2010)。我们的GBM聚类与这些现有亚型的比较(参见表2)表明,我们的方法不仅反映了一种数据类型的证据,而且发现了一个同时考虑了基因表达和DNA甲基化信息的聚类。

我们可以观察到,集群1富含间充质亚型,而集群2主要包含属于经典和神经亚型的样本。proneural亚型的样本主要分布在集群3和集群4上,这两个集群也反映了G-CIMP的状态。集群3几乎只包含G-CIMP阳性样本,而集群4包含属于proneural亚型但GCIMP阴性的样本。这表明,在这种情况下,同时评估表达和DNA甲基化数据可能是非常有益的,因为单独基于基因表达数据的分析可能会导致集群3和集群4的结合。

 5.聚类的临床意义

为了进一步了解所确定的集群的生物学后果,我们研究了个体集群的患者如何对不同的治疗作出反应。在213个胶质母细胞瘤患者中,94名患者接受替莫唑胺治疗,替莫唑胺是一种烷基化剂,在DNA复制过程中导致胸腺嘧啶错配(Patel et al, 2014)。图5显示了每组患者接受治疗和未接受该药治疗的生存时间。我们可以看到,这种治疗只对已确定的人群中的一小部分有效。第5组患者使用替莫唑胺治疗后生存时间明显延长(经Bonferroni校正后P值< 0:01)。对于聚类1和聚类2,我们可以看到治疗患者比未治疗患者生存时间更长的趋势较弱(经Bonferroni校正后P值< 0:05),而对于其他聚类,经多次校正后,我们没有发现治疗患者和未治疗患者的生存时间有显著差异。其他药物的生存分析可以显示它们在不同群体中的有效性。

 集群3主要由proneural亚型和G-CIMP甲基化亚型患者组成。从总体上看,这个集群的生存时间增加了;然而,他们并没有从替莫唑胺治疗中明显获益。

我们使用Kruskal-Wallis秩和检验确定了这些患者与所有其他患者之间的差异表达基因。表3(列1)显示了过表达基因集的基因本体富集分析的前15个术语。结果与Noushmehr等人(2010)发现的G-CIMP阳性亚型非常相似。此外,我们发现这组低表达基因在与免疫系统和炎症相关的过程中高度富集[参见表3(第二列)]。由于慢性炎症通常与癌症进展有关,并且被认为在肿瘤微环境的构建中起着重要作用(Hanahan and Weinberg, 2011),这些下调可能是该群集患者预后良好的原因。

总结

由于大量不同的生物学测量,现在有可能在许多不同的水平上研究疾病,例如比较DNA甲基化,基因表达或拷贝数变异的差异。对于样本的无监督分析以检测有趣的子组,通常不清楚如何权衡不同类型信息的重要性。在这项工作中,我们建议在这种情况下使用无监督多核学习。对于来自五种不同癌症的患者数据,我们已经证明,根据对数秩检验,我们的方法可以找到比最先进的方法更有趣的亚组。此外,我们已经证明,我们甚至可以利用每个数据类型的多个核矩阵,不仅可以提高性能,还可以消除从业者选择最优核矩阵的负担。单个内核贡献的可视化表明,每种数据类型使用多个内核矩阵甚至可能是有益的,并且稳定性分析表明,当添加更多内核时,该方法不会过拟合。与非正则化的MKL-DR相比,rMKL-DR对于小数据集也保持稳定。对于该方法的广泛适用性来说,这一点尤为重要,因为在许多潜在的应用场景中,可用样本的数量比本研究要少。此外,当我们使用图嵌入框架时,可以直接执行半监督学习(例如,在可用的情况下使用治疗数据作为标签,并评估未标记的数据点在不同聚类上的分布)。GBM患者的聚类显示出与先前基于表达和DNA甲基化数据的聚类一致,这表明我们的方法能够在一个聚类中捕获这种多样化的信息。对于同一聚类,我们还分析了患者对药物替莫唑胺的反应,揭示属于特定聚类的患者明显受益于该治疗,而其他患者则没有。在GBM患者样本的有趣集群中,GO富集一方面显示了与生物学文献中已知的结果相似,另一方面,在存活时间较长的癌症患者亚组中,免疫系统的下调。这表明,在某些情况下,部分免疫系统的下调可能是有益的。有必要对不同聚类的结果进行进一步的后续研究,以评估其生物学意义和意义。

 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值