comboFM: leveraging multi-way interactions for systematic prediction of drug combination effects

摘要

我们提出了comboFM,一种机器学习框架,(用于在细胞情境特定的方式下对药物剂量组合效应进行系统建模。)用于预测临床前研究中药物组合的反应,如基于细胞系或患者来源的细胞。comboFM通过高阶张量对细胞环境特定的药物相互作用进行建模,并使用强大的因子分解机器有效地学习张量的潜在因子。该方法使comboFM能够利用之前在类似药物和细胞上进行的实验的信息,预测新组合药物在迄今未测试的细胞中的反应;因此,尽管数据张量稀少,它仍然可以实现高度精确的预测。我们使用癌细胞株药物筛选的数据证明了comboFM在各种预测方案中的高预测性能。随后对一组之前未测试过的药物组合进行了实验验证,进一步证实了联合用药的实用性和健壮的适用性。例如,我们证实了间变性淋巴瘤激酶(ALK)抑制剂克唑替尼和蛋白酶体抑制剂硼替佐米在淋巴瘤细胞中具有新的协同作用。总的来说,我们的研究结果表明,comboFM为药物组合的系统预筛选提供了一种有效的手段,以支持精准肿瘤的应用。

介绍

例如,美国国家癌症研究所(NCI)生成的NCI- almanac数据集提供了超过300万个实验测量的不同细胞系和组织类型[4]的药物联合反应。然而,尽管这些数据集具有潜在价值,但潜在剂量反应数据的高维性和不同剂量药物相互作用模式固有的复杂性给药物联合效应的精确建模带来了挑战。
我们的工作基于观察,药物组合的剂量-反应数据可以汇编成一个高阶张量,以药物、药物浓度和细胞株为索引。comboFM使用高阶因子分解机(FM)[20]——一种最近提出的用于大数据非线性学习的机器学习方法,将细胞对药物组合的特异性反应建模为张量的不同模式之间的相互作用。comboFM使人们能够探索不同剂量药物组合反应的详细情况。

结果

组合模型概述

预测场景:comboFM用于在三种实际情况下预测癌细胞系的联合用药反应(图1a)。预测新的剂量反应矩阵项的第一个方案对应于在部分测量的剂量反应矩阵中填充空白
在新的剂量-反应矩阵推断的第二种情况中,预测是完全提供未经测试的药物-药物-细胞系三联体的剂量-反应矩阵,这样在其他细胞系中仍然可以观察到药物对。
在新药物组合推断的第三个也是最具挑战性的场景中,预测的是完全新的药物组合,在任何细胞系中都没有可用的组合测量,从而为药物的新组合和细胞环境的重新定位提供指导。
在这里插入图片描述
张量表示:为了捕获不同细胞系和不同剂量下药物组合之间的高阶相互作用,comboFM将两种药物、细胞系和剂量反应矩阵之间的多途径相互作用建模为五阶数据张量X(图1b)。此外,comboFM可以整合药物和细胞系的任何辅助数据,如药物化合物分子指纹形式的化学描述符、癌细胞系的基因表达谱和药物测试的浓度值。在这里插入图片描述
特征表示:对于学习算法,数据张量X~被平展成一个二维数组(图1c),其中每个行向量x标识原始张量中的单个条目。给定训练数据中的相关反应yi,使用因子分解机(FMs)学习组合模型。高阶FMs通过估计每种输入特征xi1·xi2··xit的组合的回归权值wi1,...,it学习从输入特征(x)到输出(y)的非线性回归模型,其中t是交互的顺序。在这里插入图片描述
参数估计:然而,FM并没有像多项式回归那样分别估计权重wi1,…,it 而是使用因数分解参数化法(图1d)对权重进行近似(图1d),其中权重是通过FM学习的潜在因子相乘来耦合的。这种方法避免了直接估计权值张量W而导致的计算和统计问题。此外,权值的耦合允许在数据张量分布稀疏的情况下进行有效的学习。
在这里插入图片描述
图1:预测药物剂量联合效应的组合框架概述。(a)考虑三种预测方案:在部分测试过的剂量反应矩阵中填充缺失的条目,在一个新的细胞系中预测一个完整的剂量反应矩阵,以及对一个尚未在任何细胞系中测试过的全新药物组合进行预测。(b)在每个预测场景中,实验测量的剂量反应矩阵被编译成以药物(D1, D2)、药物浓度([D1], [D2])和细胞系©为索引的五阶张量X,基因组和化学描述子被集成到预测模型中。©在药物组合剂量-反应矩阵数据下的张量结构与其他化学和基因组描述符一并编码为单一特征矩阵。(d)特征i1,…,it的t阶组合(描述为t = 3)的模型参数wi1,wi2,…,wit使用分解的参数化在这里插入图片描述进行近似。d为特征总数,k是定义因式分解的秩的超参数。

**参数估计**:
在这里插入图片描述
在这里插入图片描述
图2. 五阶、二阶和一阶组合的预测性能,以及随机森林(RF)作为测量和预测剂量-反应矩阵之间的散点图。在以下三种预测方案中,通过百分比增长来衡量反应:(a)新的剂量-反应矩阵项,(b)新的剂量反应矩阵,©新的药物组合。comboFM预测的性能指标报告为平均超过10个外部CV倍。NCI组合得分的Pearson相关性作为所有计算出的NCI组合得分的平均值,根据预测的剂量-反应矩阵计算得出。给出了每个散点图的趋势线及其方程。

通过comboFM准确预测药物联合反应

为了系统地评估comboFM模型,我们使用了来自NCI-ALMANAC研究的抗癌药物联合反应数据[4]。 为了使不同的预测场景所需的各种数据拆分成不同的交叉验证折叠,并使计算复杂性可管理,我们考虑了一个数据子集,包括50种FDA批准的药物(补充表3),在来自9种组织类型的60个细胞系中以不同浓度对筛选的617种不同组合[23]。在这个数据子集中,总共有333 180个药物联合反应测量值和222 120个单药治疗反应测量值以细胞系增长百分比的形式存在(见方法)。为了通过计算量化comboFM在预测药物组合反应中的性能并优化模型参数,我们在三种预测情况下执行了10×5(10个外部折叠,5个内部折叠)嵌套交叉验证(CV)过程(请参见方法)。根据基础张量的顺序,由FM建模的特征相互作用的顺序设置为m = 5。

为了研究考虑高阶特征相互作用的好处,我们还使用FM的二阶公式化和一阶FM(与岭回归相对应)进行了实验。为了进一步基准化comboFM的预测性能,我们将随机森林(RF)用作参考模型,这是一种基于完全不同的学习原理而广泛使用的机器学习模型,以前已用于对药物组合效应进行建模[24 ,25、26、27、28],包括最近的阿斯利康-桑格药物组合预测DREAM挑战[19]的获胜方法。在整个实验过程中,交叉验证折叠都保持不变,以确保公平的比较。我们使用均方根误差(RMSE)以及原始和预测剂量反应矩阵之间的Pearson和Spearman相关性来评估这些方法的预测性能。

通过利用潜在的高维药物组合空间中存在的跨药物,药物浓度和癌细胞系的多方相互作用,五阶组合在所有三种预测场景中都表现出了较高的预测精度(图2), 优于随机森林参考(在所有预测方案中p <10-10,Wilcoxon配对有符号秩和检验)。在预测新的剂量-反应矩阵条目和新的剂量-反应矩阵的场景中,5阶comboFM的Pearson相关系数为0.97,即使在新药组合预测场景中,5阶comboFM的Pearson相关系数也为0.95。在所有三种情况下,五阶comboFM也明显比一阶和二阶comboFM更准确。使用Spearman相关和RMSE也可以观察到这些方法的相似相对性能(图2)。此外,五阶comboFM的分布最准确地符合实测响应的分布(补充图1)。

除了这些方法的整体预测性能,我们还分析了它们在不同组织类型和不同类型药物联合治疗中的表现(图3、补充图2和补充表1)。在所有三种预测场景中(图3,a-c), comboFM在每一种组织类型中平均预测精度最高,在不同组织类型中方差最小。结肠癌中的联合反应似乎比其他组织类型更难预测,这很可能是由于结肠癌反应数据的差异较大,因为结肠癌细胞系的数量与其他组织类型相似,因此 数据量有限,不太可能导致性能下降。然而,在结肠癌细胞系中,五阶组合仍是最准确的方法。此外,comboFM在不同类型的联合治疗(化疗、靶向治疗和其他治疗,如激素治疗)中提供了较高的准确性(图3,d-f)。涉及其他类别药物的联合治疗包括最小的观察值,解释了所有方法的预测准确性下降。

为了进一步验证五阶组合的性能,我们还评估了未用于交叉验证的NCI-ALMANAC数据的其余部分的预测精度,这些数据包括4 737种不同的药物组合。该模型在617种药物组合的完整开发数据集以及验证集中单一药物的单药治疗反应上进行了训练,然后将经过训练的模型用于在各种细胞系的验证集中预测4737种药物组合的反应。5阶comboFM在该验证集中也显示出较高的预测准确性(补充图5和6),即使对于以前在其他任何组合中均未观察到药物的组合,Pearson相关性也为0.91,即该模型仅可获得单个药物的单药应答 。

基于预测的剂量反应矩阵,可以高精度恢复协同作用评分

由于对药物组合实验的兴趣通常在于发现最具协同作用的药物组合,因此我们还基于用comboFM预测的剂量反应矩阵来量化药物组合的协同作用。作为协同量化模型,我们应用了NCI ComboScore(请参见“方法”),该方法是在完整的预测剂量反应矩阵上计算的。尽管技术上将NCI ComboScore大于零的药物组合定义为具有协同作用,但通常将具有高度协同作用的组合视为更有吸引力的候选物,以进行进一步的实验验证。因此,我们将极具增效作用的药物组合(NCI组合得分在前10%中观察到)标记为阳性类别,其余的低增效作用、加性作用和拮抗剂组合标记为阴性类别

在所有三种预测方案中,从5阶组合预测的剂量-反应矩阵中获得药物联合协同得分的准确性很高,显著优于其他比较方法(补充图7)。重要的是,即使在预测新药组合的挑战性场景中,观察到的NCI ComboScores与预测的NCI ComboScores之间的Pearson相关系数为0.72(p <10−10,双向t -检验,N = 74,040),也可以使用5阶comboFM基于预测的剂量反应矩阵准确地计算出药物组合的协同作用。在区分高度协同的药物组合的任务中,在新药物组合预测任务中,五阶comboFM在接收器特征算符曲线(AUC)为0.91的情况下获得了较高的面积(补充图8)。在每种预测方案中,以及在使用各种最高百分比的极端协同组合时,判别准确性均处于较高水平(补充图8)。

最协同预测药物组合的实验验证

为了进一步证明comboFM预测新型和稳健药物组合的能力,使用了开发数据集中所有可用的剂量反应测量值对模型进行了训练,然后,使用训练后的组合来预测所有60个细胞系中剩余未测量药物组合的剂量反应矩阵,结果得到总计10320个预测的完全剂量反应矩阵。随后对针对4个细胞系的16种药物组合进行了实验验证(补充表2),其中comboFM预测了高协同效应。这些组合的选择主要涉及分子靶向治疗,因为最近的兴趣越来越倾向于靶向药物而不是标准的细胞毒性化疗。特别地,我们关注癌症特异性药物组合,这些药物组合被预测仅在所有细胞系和组织类型的子集中具有高度协同效应。这比识别能杀死大多数癌细胞、但也可能在健康细胞中诱发严重毒性的广泛毒性组合更具挑战性。在之前的实验中,我们认为在特定组织类型中,NCI组合得分前10%的组合具有高度协同效应。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
图3 在三种预测场景下,第五阶(comboFM-5)、第二阶(comboFM-2)、一阶comboFM (comboFM-1)和随机森林(RF)对组织类型和药物类别的预测性能a–c 组织类型。d–f药物类别。三种预测场景描述如下:a, d预测新的剂量-反应矩阵条目,b, e预测新的剂量-反应矩阵,c, f预测新的药物组合。有关药物类别的进一步信息见补充表3。在箱线图中,画在中间的水平线表示中位数,下合页和上合页分别对应第25百分位和第75百分位。上须和下须分别表示最大和最小值,不超过四分位数间范围(IQR)的1.5倍。晶须之间不包括的点是异常预测。

图4总结了16个药物-药物-细胞系三联组的实验验证结果,使用Bliss模型对观察到的协同作用进行了量化背景直方图显示了一个内部药物组合数据集的分布,该数据集由对16株KRAS突变的胰腺导管腺癌细胞株测试的60种药物组合组成。由于参考集中的组合不是随机选择的,背景协同效应分布表现出轻微的正偏差;然而,由于该方法与用于comboFM预测(“方法”)实验验证的方法相同,因此有望为统计评估提供一个有效的参考分布。当考虑正的Bliss得分作为协同作用程度的证据时,comboFM 预测的所有药物组合均被证实具有协同作用(p < 10−4,背景分布的二项检验)。重要的是,16种组合中有9种的Bliss协同作用评分高于背景分布的90%(p <10-5,二项式检验)。 除了Bliss协同得分以外,我们还使用其他三种流行的协同模型计算了协同得分:Loewe,最高单一代理(HSA)和零相互作用力(ZIP)得分(补充图9和10)。 这些结果证明了在各种实验设置和协同评分模型中comboFM预测的鲁棒性。
在这里插入图片描述
图4 实验验证中测定的comboFM协同性得分。对16种特定细胞株的预测进行的内部实验验证显示为彩色线(顶部),直方图显示了来自内部参考数据集的背景分布,该数据集包括对16种KRAS突变的胰腺导管腺癌细胞株测试的60种药物组合(见“方法”)。在剂量反应矩阵的最协同作用区域,使用Bliss独立得分对协同作用进行量化(其他协同作用得分见补充图9)。颜色等级对应Bliss分数(绿色对抗反应、白色独立反应、红色协同反应)虚线表示使用相同的实验设置获得的背景分布的百分位数

其中,comboFM预测间变性淋巴瘤激酶(ALK)抑制剂克唑替尼和蛋白酶体抑制剂硼替佐米在SR淋巴瘤细胞系中具有特别高的协同作用。除了我们内部的实验验证外,这一发现在NCI-ALMANAC数据的外部测量中得到了进一步的验证,这些数据并没有被用作comboFM训练数据的一部分。ALK抑制剂对存在ALK融合的癌症有效。SR细胞系携带NPM1-ALK融合,这是首次在大细胞淋巴瘤中发现ALK融合。硼替佐米被批准用于壁炉细胞淋巴瘤,支持其在淋巴瘤治疗中的潜力。两种即使是轻度有效的抑制剂联合使用可能会增强抑制效果,并有可能克服单药治疗的耐药性。值得注意的是,comboFM在不了解SR细胞系ALK融合状态的情况下做出了这一预测,也就是说,这一生物学原理不适用于该模型。对于淋巴瘤细胞系,第一代ALK抑制剂与蛋白酶体之间的高协同作用的预测突出了comboFM预测生物学上可能的联合作用的潜力

comboFM模型还确定了另一种对SR细胞系有效的独特药物组合,即EGFR抑制剂吉非替尼与批准的化疗洛莫司汀的组合,用于淋巴瘤治疗。 诱导对ALK抑制剂产生抗性的机制之一是EGFR的激活,因为它们通过相似的下游途径发出信号。 因此,正在临床上针对双抗ALK / EGFR抑制剂Brigatinib对抗淋巴瘤和肺癌患者(NCT01449461)进行研究。我们的comboFM方法预测组合伙伴将广泛探索淋巴瘤的ALK和EGFR抑制剂,我们也能够在实验环境中进行验证(图4)。 这些例子表明,comboFM可以识别靶向治疗和细胞毒性治疗的新型组合,这些组合已经单独用作淋巴瘤治疗,因此在临床应用中可能具有可接受的毒性特征。

讨论

考虑到可以想象的药物和剂量组合的数量庞大,需要计算方法来加速实验工作,为进一步的实验验证提供指导,确定最有希望的药物组合。虽然药物联合剂量-反应矩阵的大量数据集已经在实验室中进行了测试,但在靶向和非靶向治疗、激素和免疫治疗的组合空间中仍存在巨大的差距。我们提出了一个新的机器学习框架comboFM,用于大规模系统地预测人类癌细胞系的药物联合作用。获得的结果表明,comboFM可以利用药物、药物浓度和癌细胞株反应之间的高阶预测关系,这是使用随机森林和更简单的方法(包括联合用药的一阶和二阶公式)所忽略的。重要的是,comboFM可以准确地概括出训练空间中未观察到的新药物组合的预测,这使人们能够系统地预测到迄今为止由训练集中单个药物组成的未经测试的药物组合的剂量反应矩阵。这将为药物重新定位到新的组合提供指导。我们还证明了comboFM在不同的组织类型和药物联合治疗类别中始终获得高预测性能。此外,在相同CPU上运行并考虑相对保守的200个训练次数来训练comboFM模型时,五阶comboFM的训练速度比随机森林参考快3倍(补充表2)。 通过采用GPU训练5阶comboFM模型(与随机森林相比快34倍),可以获得更多的性能优势。

与直接预测药物组合协同作用的方法相比,首先在剂量反应矩阵水平上对药物组合作用进行建模,然后在整个矩阵上对整体药物组合协同作用的水平进行量化可以提供很多好处首先,预测潜在的剂量-反应矩阵使人们能够利用剂量-反应矩阵中包含的所有信息,并提供各种剂量组合下反应情况的详细信息。另外,在第二阶段,不仅限于单一的协同作用量化模型,而且可以使用各种模型探索协同作用,从而获得对协同药物组合格局的更全面的了解。此外,了解药物组合在剂量水平和协同作用水平上的作用都可为精确药物研究提供有用的指导。 例如,在临床实践中,在较低剂量下观察到的联合协同作用通常更好。此外,已经表明,对于大多数FDA批准的药物组合,在临床前模型中仅观察到很少的可加性或协同作用证据,这突显了临床治疗成功并不总是需要协同作用。 但是,也有人认为,基于预测性标记的患者分层可能会降低临床治疗反应的变异性,并有助于实现对联合治疗的真正协同反应。

使用NCI-ALMANAC数据对顶级协同组合进行的内部实验验证表明,comboFM预测对实验设置也很可靠。与用于分析NCIALMANAC开发数据集的组合分析相比,内部分析具有许多实验差异。 特别是,内部检测以百分比抑制的形式而不是NCIALMANAC检测中使用的生长百分比来测量药物组合的反应。因此,我们无法为实验验证计算NCI ComboScore,而是使用四种流行的协同模型对组合进行评分(补充图9和10)。例如,comboFM预测组蛋白脱乙酰基酶(HDAC)在黑色素瘤细胞系MALME-3M中的关键作用,从而暗示了HDAC抑制黑色素瘤的潜力。特别是,与HDAC抑制剂罗米地辛的各种组合预计可有效抵抗BRAF突变体黑素瘤细胞系MALME-3M(在实验环境中也是如此)(图4)。即使已经对罗米地辛组合中的大多数药物进行了不同的组合研究,以靶向黑色素瘤[33,34],但comboFM预测的组合仍未针对黑色素瘤进行探索,值得进一步研究。 单独地,这些抑制剂中的每一种在针对黑素瘤的临床前或临床环境中均显示出令人鼓舞的结果,进一步支持了它们在联合疗法中的应用。

尽管这项工作的主要目的是开发并仔细验证癌细胞系中的comboFM模型,作为系统预测生物发现药物组合反应的准确方法,但我们注意到,comboFM鉴定的许多药物已经或正在针对特定癌症类型在临床上进行探索,无论是单一药物还是与其他药物联合使用(见补充表5)。例如,HDAC抑制剂伏立诺他正在一项正在进行的临床试验中针对BRAF突变的晚期黑色素瘤进行测试(参考文献35; NCT02836548)。 同样,mTOR抑制剂依维莫司被证明在酸性条件下选择性靶向BRAF突变型黑色素瘤。在一项正在进行的临床试验中,正在研究mTOR抑制剂依维莫司或替西莫司联合BRAF抑制剂治疗BRAF突变的晚期实体瘤(NCT01596140)。SMO抑制剂vismodegib阻断了调节皮肤生长的刺猬通路。 在髓母细胞瘤的情况下,HDAC抑制剂甚至对SMO抑制剂耐药的细胞系也具有活性。因此,同时使用HDAC和SMO抑制剂具有针对黑色素瘤的有前途的策略,如romi depsin和vismodegib组合所预测的(图4)。基于同样的原理,将HDAC抑制剂与DNA损伤药物(如奥沙利铂、放线霉素和克拉滨)联合使用具有强大的前景,并在不同的临床前和临床环境中进行了探索。

尽管这些发现值得在适当的临床试验中进一步验证,但这些案例已充分揭示了我们方法预测具有翻译潜力的组合的潜力。此外,一旦在细胞系资源中确认了模型的准确性,我们就可以预想,经过仔细验证的模型也将适用于来自各个癌症患者的数据,从而提供在精密肿瘤学应用中定制有效组合的手段。 对于选定的癌症类型,例如血液系统恶性肿瘤,分子和药物反应图谱数据可从患者来源的原代细胞获得,这些数据可用于训练特定于癌症类型的预测模型一旦获得了来自其他癌症类型的相似数据,comboFM也将能够进行泛癌分析,类似于NCI-ALMANAC细胞系中的当前分析。 我们发现,NCI ALMANAC细胞系中预测的许多组合实际上已经在临床试验中进行了测试(补充表5)。 有趣的是,大多数组合都以与根据细胞系预测的不同的适应症进行了不同的适应症测试,这提示了进一步利用药物的机会。 comboFM预测要求输入数据开始在许多功能精密医学研究中常规可用,因此使其广泛适用于许多癌症类型和治疗类别。

在本研究中,我们假设人们在预测组合反应之前先了解单药的单药治疗反应,因为在实践中通常需要了解单药的浓度范围和效力(即剂量-反应曲线)。 为了知道在组合测试中应使用哪种剂量组合,以及这些化合物各自的效力如何。comboFM可以通过计算潜在因子来在剂量反应矩阵空间内进行插补,从而从该信息中极大受益,因为潜在因子的计算代表着单独来自响应张量的药物组合(类似于推荐系统,根据用户拥有的电影对其进行分组 就像过去一样),而药物和细胞系的描述子只是微调了预测结果。通过仔细的实验​​设计,可以使准确的剂量反应矩阵预测所需的单药治疗反应数量最小化,同时保持comboFM模型的准确性,这是一个有意思的未来研究课题,这是有可能的。 但是,在一种情况下,如果您希望在任何细胞系中都没有任何先前的单药治疗或联合反应数据的情况下,对全新分子进行预测,那么计算出的潜在因子将不再有用,并且在当前设计中,这些方法都无法正常运行 (补充图13)。这种情况下方法学的局限性可以通过更广泛的特征工程或开发专门用于预测全新药物组合的剂量反应矩阵的模型来解决。

与任何高通量临床前数据一样,细胞系药物反应谱可能在同一对细胞系治疗对的实验输出中显示出不一致。 因此,我们认为重要的是,在足够大的标准化细胞系资源(例如NCI-ALMANAC)中开发并初步评估预测模型,以避免在开发阶段出现任何可重复性问题。 我们在同一细胞系中使用不同的实验设置进一步测试了模型预测,以表明该预测对此类生物学和技术变异具有足够的鲁棒性。

总而言之,鉴于药物组合实验筛选的高昂成本,comboFM有潜力提供时间和成本效益高的方法,以优先选择最有希望的药物组合用于进一步的临床前或临床研究。 准确而可靠的药物联合反应预测提供了一种有前途的方法,可简化个性化癌症治疗中联合治疗药物的开发和扩展。这最终可以加速组合疗法的临床应用,以对抗获得性耐药性并提高治疗效果。

方法

高阶分解机器

comboFM使用高阶因子分解机(HOFM)来预测药物-药物组合的反应。
HOFMs是用特征向量在这里插入图片描述和输出标签在这里插入图片描述的例子的训练集学习的非线性回归模型。
在这里插入图片描述
训练有素的HOFM将输出y∈R建模为输入特征之间的单个、成对和高阶相互作用的函数,直至m阶:
在这里插入图片描述
第一项对应于线性模型,并且所有参数wi是独立估计的。 另一方面,高阶参数以分解形式估算
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述特征i的第m阶因子权重,k为超参数,定义因子分解的秩
在这里插入图片描述
表示m个向量在这里插入图片描述广义内积,它将通常的成对内积<a,b> = aTb泛化为m个向量的集合。

因子权重被收集到矩阵在这里插入图片描述中。因式参数化将估计参数的数量从O(dm)(所有特征组合都有其自己的参数)急剧减少到O(kdm)(维度为d×k的m-1个因子矩阵)。原则上,HOFM对于每个阶数t = 2,…,m允许唯一的秩kt。 在上面的描述和我们的实验中,我们使用统一等级k = k2 =…= km。

FM基于这样的假设,即成对和高阶特征交互的影响等级较低并且即使在高度稀疏的数据下,FM也可以估计可靠的参数。因此,学习wi,i’不需要观察xi和xi’的共现:因子pi’:和pi’:可以通过与其他维度的相互作用习得,pi’:和pi’:的点积仍然得到wi,i’。在输入张量通常非常稀疏的高维药物组合数据的情况下,这非常有用,因此可以可靠地推断出对新药物组合的反应,这些新药物组合的个别成分在训练张量的其他位置仍可观察到。与标准矩阵分解方法相比,FM通过允许集成描述药物和细胞系的辅助数据(例如化学和基因组描述符)来提供额外的灵活性。

学习高阶分解机的目标功能是使正则均方误差最小
在这里插入图片描述
其中β1,…,βm> 0是正则化参数。 为了限制要搜索的超参数组合的数量,按照Blondel等人的工作,我们设置β1= … =βm以及统一的秩k = k2 = … = km。 在实验中,我们使用了高阶因式分解机的最新TensorFlow实现。

在NCI-ALMANAC数据上,增加因子分解机的阶数和秩都可以提高comboFM模型的预测性能(皮尔逊相关性)(补充图12)。 预测性能急剧上升,直到与数据张量X的固有阶数匹配的阶数5(见图1b),然后继续缓慢增长。 由于因式分解的秩增加而导致的性能提升很快,直到达到等级(秩)50为止,然后继续缓慢增长。 即使分解阶数高达10,等级(秩)高达150,也没有明显的过拟合。

协同量化

由于人们通常希望发现最协同的药物组合,因此,我们根据预测的剂量反应矩阵对药物组合的协同作用进行了量化。 为了计算协同作用得分,我们使用了NCI ComboScore,它是与最初从Bliss独立性得分修改而来的NCI-ALMANAC数据集一起引入的。

药物A和药物B的NCI ComboScore定义为在所有浓度p和q下预期和观察到的反应之间的偏差之和:
在这里插入图片描述
其中yc(Ap,Bq)是暴露在浓度为p的药物A和浓度为q的药物B的细胞系的组合生长分数,ye(Ap,Bq)是基于药物A和药物B的单药治疗效果定义的联合预期生长分数:
在这里插入图片描述
其中ym(Ap)和ym(Bq)分别表示浓度为p的药物A和浓度为q的药物B的单药治疗效果。 我们应用在这里插入图片描述在这里插入图片描述将生长分数截断为150,并根据所测药物组合反应的直方图选择阈值(补充图11)。

训练设置

为了评估预测性能并优化三种预测方案下的模型参数,我们执行了10×5(10个外部折叠,5个内部折叠)嵌套交叉验证过程。对于所有因子分解机器模型,秩参数在k = {25,50,75,100}范围内得到优化,正则化参数在β= {102,103,104,105}范围内得到优化。 根据底层张量的顺序,将建模的特征交互的顺序设置为5,以作为训练时间和预测精度之间的折衷。 根据初步实验,将学习率设置为0.001,其他参数保持默认值。在{32,64,128,512}范围内优化了随机森林模型的树数,并且在{0.25,0.5,0.75,1.0}范围内寻找最佳分割(MaxFeatures)时考虑的特征分数。

由于每个输入样本由单个特征向量表示,因此,为了考虑药物组合的对称性,将样本进行复制,以使组合中的两种药物都包含在特征向量的两个位置中。 这告知算法,应将药物A与药物B的组合视为与药物B与药物A的组合相同。使用相同的性能评估指标评估所有模型的预测准确性:RMSE,Pearson相关性和Spearman相关性

预测性能的评估

在这类应用中,预测性能会受到训练和测试集是否共享建模的交互的不同组成部分的显着影响,因此在实际应用场景下可靠地量化预测准确性非常重要。因此,我们评估了comboFM在三种预测场景下的预测性能:(a)新的剂量-反应矩阵项预测,(b)新的剂量-反应矩阵预测,©新的药物联合预测(c.f.图1)。对于每个场景,我们使用专用的嵌套交叉验证设置,以确保公正的评估。在方案(a)中,对剂量-反应矩阵中的单个保留条目进行了预测。对于每个交叉验证折叠,随机选择保留的条目。 在方案(b)中,对完全保留的对(剂量-反应矩阵,细胞系)进行了预测,因此在其他细胞系中仍测量了相同的药物组合。此场景对应于有关药物组合协同效应预测的其他计算工作中广泛使用的策略,其中对新的药物-药物-细胞系三联体进行预测。 在场景(c)中,即新药组合预测的最具挑战性的方案中,在没有可用组合测量的情况下,对训练空间外的新型药物组合进行了预测。在所有的预测方案中,我们假设联合用药中单一药物的单一治疗反应是已知的。

为了通过计算评估预测性能并优化模型参数,我们执行了嵌套的交叉验证程序。 在新的剂量反应矩阵项预测的第一个预测方案中,交叉验证折叠是通过仅从张量项中随机采样形成的。在有关新的剂量反应矩阵的第二种预测方案中,通过在剂量反应矩阵的水平上随机采样来创建折叠,即,如果药物对-细胞系三联体(xd1,xd2, xc)属于测试集 ,训练张量不包含任何涉及三元组(xd1,xd2,xc)的条目。在新药组合预测的第三种情况下,对药物对的级别进行随机采样,并从训练集中保留涉及测试药物对的所有条目,即,如果药物对(xd1,xd2) 属于测试集,训练张量不包含任何涉及该对(xd1,xd2)的条目。 此外,我们确保仍可以在训练集中的其他组合中单独观察到遗留药物对中的各个药物,这使得模型能够从保留药物组合中的单个药物在其他组合中的作用方式中学习。

药物联合抗癌活性数据集

药物联合抗肿瘤活性数据集来自最近的NCI-ALMANAC研究,这是迄今为止最大的可用药物联合数据集。原始数据集涵盖了针对100种不同浓度的60种细胞系筛选出的大约100种小分子药物的5000多种组合,包含超过300万种反应测量结果。数据集中包含的药物是FDA批准的具有经证实的活性和成熟安全性的肿瘤药物。 细胞系代表来自NCI-60组的人类肿瘤细胞系,源自9种不同的组织类型。

为了降低计算复杂度,我们通过从原始药物集中随机抽取50种药物(补充表3)来选择NCI ALMANAC数据集的子集,以确保药物组合反应子集的分布与原始药物反应子集的分布相匹配 。 此外,我们选择了可以在所有60个细胞系中进行完整测量的药物组合。结果,我们获得了由617种药物组合组成的数据集,其中包含617种药物组合,其中包含50种独特药物,并针对60种细胞系筛选了45种独特浓度,其中包含333,180个联合治疗反应测量值和222,120个单药治疗反应测量值,我们用细胞系相对于对照组的生长百分比来测量。。数据集中的每个药物组合均采用4×4剂量-反应矩阵设计筛选。

数据表达

定义基础数据的信息输入特征表示形式对于全面利用comboFM和FM至关重要。 通过定义适当的输入特征,FM被证明具有代表能力,涵盖从标准模型到更专业的模型的各种矩阵和张量分解模型。 因此,通过学习FM,还可以学习所有包含的因式分解模型。

为了将基于药物组合响应数据的张量的结构表示为单个输入特征向量,使用了独热编码。 在这里,输入特征向量x分为与张量的不同模式相对应的五个不同的组:两组药物,它们的浓度和细胞系。 在每个组中,正好一个值设置为1,其余值设置为0,其中1表示相应交互中存在的实例:
在这里插入图片描述
由于特征向量仅针对相应交互中存在的一对药物,药物浓度和细胞系为非零,因此FM模型中的所有其他交互都消失了,并且该模型对应于涉及分类变量的标准分解模型。 但是,尽管标准分解模型仅限于分类输入数据,但comboFM和FM除了交互元素的信息之外,还可以合并辅助功能,这可以进一步辅助预测任务,尤其是在训练空间之外进行预测时。 在这项工作中,我们使用了分子的化学描述符和细胞系的基因组描述符(有关详细信息,请参见下文)。

化学描述符

作为化学描述符,我们集成了分子指纹和二进制矢量,这些矢量被设计为以一系列的比特来表示分子的结构,每一个比特代表一个特定的子结构的存在或缺失。 我们从rcdk R包中选择了一种流行的“ estate”类型的指纹,其中包括79位对应于最初定义的E-State原子类型。进一步删除了数据集中方差为零的指纹位,从而为两组药物剩下了34位。

基因组描述符

作为基因组描述符,我们纳入了从rcellminer R软件包获得的癌细胞系的基因表达谱。 使用五个不同平台(四个Affymetrix阵列和Agilent Agilent Human Human Genome Oligo阵列)测量了基因表达谱,并报告了合并的平均z值作为该基因的合并基因表达。 为了降低所得特征矩阵的维数,我们选择了样本中方差最高的0.5%的基因,从而为每个细胞系获得了78个基因表达值。

细胞系

从ATCC(HS-578T和Malme3M)和NCI-Frederick DCTD肿瘤/细胞系库(SR&IGR-OV1)购买的早期传代细胞系用于药物组合筛选。 将细胞系在加湿的培养箱中于各自的培养基中保持在37°C,5%CO2的条件下(参见补充表4a)。 所有试剂均购自ThermoFisher Scientific。 测试所有细胞系支原体阴性。 该测试基于Choppa等描述的方法,由芬兰赫尔辛基THL Biobank的样品管理实验室作为服务进行。

药物组合筛选

药物组合测试实验设计取自Gautam等人。 将两种药物的log3倍稀释度的七个不同浓度以8×8矩阵形式相互组合。 请分别参考补充表4b和c,了解挖掘信息和组合设计。 使用Echo 550 Liquid Handler(Labcyte)将化合物接种到黑色透明底部384孔板(Corning#3764)上。 将100μM苄索氯铵(BzCl2)和0.1%二甲基亚砜(DMSO)分别用作阳性和阴性对照。 使用MultiFlo FX多模式分配器(BioTek)进行所有后续液体处理。 将预分配的化合物溶于5μl培养基中,并在室温下置于平板振荡器中放置30分钟。 将二十微升细胞悬液(关于细胞系特异性接种密度,请参见补充表4a)分配到药物板上。孵育72小时后,每孔加入25μlCellTiter-Glo(Promega)试剂,在室温孵育10分钟后,使用PheraStar读板仪(BMG Labtech)测量发光度(细胞活力)。

报告摘要

关于研究设计的更多信息可以在链接到本文的《自然研究报告摘要》中找到。

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值