论文解读:《NeRD:一种通过整合多维数据来预测药物细胞反应的多通道神经网络》

文章地址:https://bmcmedicine.biomedcentral.com/articles/10.1186/s12916-022-02549-0
DOI:https://doi.org/10.1186/s12916-022-02549-0
期刊:BMC Medicine
2022年影响因子/JCR分区:11.15/Q1
发布时间:2022年10月17日
Github:https://github.com/Shaw66/NeRD

1.文章概述

背景:考虑到肿瘤的异质性,预测每个个体的药物反应是精准医学的关键问题。各类药物信息学和多组学数据的积累有助于开发有效的药物反应预测模型。然而,高质量数据源的选择和合适方法的设计仍然是一个挑战。
方法:本文设计了NeRD,一种基于PRISM药物反应数据库的多维数据集成模型,用于预测药物的细胞反应。针对不同类型和维度的数据设计了四种特征提取器,包括药物结构提取器(drug structure extractor,DSE)、分子指纹提取器(molecular fingerprint extractor,MFE)、miRNA表达提取器(miRNA expression extractor,mEE)和拷贝数提取器(copy number extractor,CNE)。全连接网络用于融合所有特征并进行预测。
结果:实验结果证明了药物的全局和局部结构特征以及来自不同组学数据的细胞系特征的有效整合。对于在 PRISM 数据库上测试的所有指标,NeRD 都超越了以前的方法。作者还验证了NeRD在新样本的预测结果中具有很强的可靠性。而且,与其他算法不同的是,当训练数据量减少时,NeRD 保持了稳定的性能。
结论:NeRD的特征融合为药物反应预测提供了新思路,对于癌症精准治疗具有重要意义。

2.背景

由于其异质性,来自相同组织起源和病理分类的肿瘤在个体中表现出高度的遗传和表型变异。在实践中,这转化为对治疗的不同反应。因此,要实现精准医疗,应考虑患者的遗传背景和病史。准确计算预测癌症患者对药物治疗的反应对于实现精准医疗至关重要且有意义。然而,癌症患者数据的缺乏和难以获取是大规模药物反应计算预测的限制。相比之下,基于细胞系的药物反应数据丰富且容易获得,为药物反应预测提供了基础。此外,利用药物反应数据用于药物反应预测的细胞系是实现精准医疗的基础和最重要的一步。各种类型的药物信息学和多组学数据的有效整合为开发药物反应预测模型提供了机会。
随着生物技术的快速发展和测序技术的不断进步,积累了大量的多组学和药理学数据。近年来,一些大规模药物筛选项目的数据已经公开,包括癌症药物敏感性基因组学 (Genomics of Drug Sensitivity
in Cancer,GDSC) 、癌细胞系百科全书 (Cancer Cell Line Encyclopedia,CCLE) 和美国国家癌症研究所 60人肿瘤细胞系抗癌药物筛选(the US National Cancer Institute 60
human tumor cell line anticancer drug screenN,CI60)。 GDSC 数据库是有关癌细胞药物敏感性和药物反应分子标志物信息的最大公共资源。目前包含近75,000项实验药物敏感性数据,描述了138种抗癌药物在近700个癌细胞系中的反应。 CCLE 数据库汇集了来自 947 个人类癌细胞系的基因表达、染色体拷贝数和大规模并行测序数据,涵盖了 24 种药物在 504 个癌细胞系中的反应。 NCI60是20世纪80年代末开发的体外药物发现工具,旨在取代可移植动物肿瘤在抗癌药物筛选中的使用,并测试52,671种药物在60种癌细胞系中的药物反应。他们帮助推进了精准医学领域的发展。然而,这些研究要么测试多种化合物对有限数量的细胞系(例如 NCI60 panel)的细胞反应,要么测试有限数量的肿瘤化合物对多种细胞系的细胞反应(例如 GDSC 项目)。理想的研究应该涉及在大量基因组特征细胞系中筛选的多种药物(大多数非肿瘤药物),以捕获人类癌症的分子多样性。
尽管前人在模型性能方面取得了一些进展,但他们只使用了单一的药物特征。此外,利用数据不足的多源信息融合来训练模型,并保持良好的预测准确性提出了挑战。由于标记成本高而导致的数据稀缺仍然是生物医学应用中的主要问题。
针对上述问题,作者提出了一种多通道神经网络模型来预测药物的细胞反应(NeRD),利用PRISM药物反应数据库。 NeRD 结合一维 CNN、堆叠式自动编码器和 GCN,有效提取和整合药物的全局和局部结构,以及多组学数据中的细胞系特征。然后使用完全连接的网络来预测最终的药物反应评分。实验结果表明,作者的方法可以有效地整合多源信息,结合不同数据结构和维度的特征。 NeRD 在 PRISM 数据库的所有评估指标上都优于七种比较方法。此外,当训练数据量减少时,NeRD 保持稳定的性能,并且比对比算法更加鲁棒。
作者的贡献总结如下:

  1. 提出了一种准确的药物反应预测模型NeRD。多通道结构的模型可以有效提取不同数据结构和维度的特征,整合药物和细胞系的多源信息。
  2. 多源信息的融合使模型更加稳健。与其他算法不同,当训练数据量减少时,NeRD 保持稳定的性能。
  3. 使用最近提出的数据库PRISM 并证明其实用性。该数据库包含更多的药物细胞系对,值得研究人员关注。

3.数据

作者使用的数据来自 PRISM 药物再利用数据库,其中包含 480 个细胞系中 1448 种药物的 IC50 值,即抑制 50% 细胞系活性所需的药物浓度。该值越低,药物的效果越好。作者检索了表征所有药物整体结构信息的SMILES特征和局部结构信息的分子指纹特征。对于细胞系,从多个组学特征中选择了 DNA 拷贝数和 miRNA 表达数据。总共 388 个细胞系具有上述两个组学特征的数据。

3.1 药物数据

简化的分子输入行输入规范(Simplified molecular input line entry specification,SMILES)
每个原子由一个节点表示,原子之间的键由边表示。每个节点包含五种原子特征:原子符号、通过键合邻居和氢原子数计算的原子度、氢原子总数、原子的隐含值以及原子是否为芳香族。这些原子特征被编码成一个 78 维的二进制向量
分子指纹(Molecular fingerprint)
对于 1448 种药物,从 PubChem 化合物数据库中提取了 SDF 格式的化学结构数据。每种药物均使用 R 包 ChemmineR 编码成 PubChem 中定义的 881 维子结构向量。每种药物都由二进制指纹表示,表明存在预定义的化学结构片段。如果药物含有相应的化学指纹,则该元素为1,否则为0。

3.2 组学数据

从 CCLE 数据库中获取了 338 个细胞系的 DNA 拷贝数和 miRNA 表达数据。 DNA拷贝数数据由23,316维向量组成,代表单倍体基因组中特定DNA序列出现的次数,可以在基因水平上反映细胞系的特征。研究表明,拷贝数改变在癌症中普遍存在,其中许多是不利的。它们参与癌症的形成和进展,并导致癌症倾向。拷贝数改变数据的分析可以通过更好地了解癌症的生物学和表型效应来帮助癌症的诊断和治疗。基于这些研究,作者也考虑了这个数据作为癌细胞系的特征数据。 miRNA 表达数据由 734 维向量组成。它是一类非编码RNA分子,可以通过与互补的靶mRNA结合来抑制或降解mRNA翻译。它在细胞分化、增殖和存活中发挥着重要作用。功能研究已经证实,许多癌症病例中异常的 miRNA 调节之间存在因果关系。 miRNA作为肿瘤抑制基因或癌基因(oncomiR)、miRNA模拟物和靶向miRNA的分子(antimiR)在临床前开发中显示出前景。

3.3 数据预处理

对于药物SMILES(图)和分子指纹(二元向量),在输入前没有进行任何处理。
IC50 值的范围太大,并且存在异常值。因此,对原始数据进行对数处理,同时确保能够恢复原始的IC50值。作者还使用箱线图来删除异常值。作者采用所有响应数据的上四分位数 Q3 和下四分位数 Q1。然后,得到四分位数间距 IQR = Q3 − Q1 。最后,小于 Q1 − 1.5 × IQR 和大于 Q3 + 1.5 × IQR 的 IC50 值被视为异常值。具体来说,作者使用的数据包含 1448 种药物和 388 种细胞系。其中,有标签的数据有249,784条(44.46%)。删除箱线图统计的 15,976 个异常值后,最终使用了总共​​ 233,808 个标签。
以 8:1:1 的比例将药物细胞系对分为训练集、验证集和测试集。

4.方法

由于药物特征和细胞系特征的数据结构和维度不同,作者针对四类特征设计了不同的特征提取网络(图1)。
在这里插入图片描述
在这里插入图片描述
作者使用包含全局结构信息的SMILES序列和包含局部结构信息的分子指纹作为药物特征。SMILES 序列描述了药物的三维化学结构。为了提取最大的结构信息,作者使用图形形式的 SMILES 作为药物结构提取器(DSE)的输入。为了从图中提取特征信息,使用了一种可以对图数据进行深度学习的方法——GCN,通过它可以获得药物分子的结构特征。由于图的数据结构与其他特征不同,无法直接整合,因此采用全局最大池化将特征数据从矩阵转换为向量,并通过全连接网络将其特征归一化为128维。
分子指纹描述了药物是否具有某些亚结构,并且可以代表其局部结构特征。由于分子指纹的数据结构是标准化的二进制向量,因此可以直接作为分子指纹提取器(MFE)的输入。然后,使用一维 CNN 来提取这些子结构的特征,并将它们归一化为相同维度的向量。
表示药物的两个特征向量被拼接以获得其最终的特征表示。
作者使用 miRNA 表达数据和 DNA 拷贝数作为细胞系的特征。设计了一个基于一维 CNN 的 miRNA 表达提取器 (mEE)。将描述 miRNA 的特征向量输入到该通道中并提取其潜在特征。
DNA拷贝数由于其超高维度,无法通过上述神经网络模型直接提取。因此,作者设计了一种基于堆叠自动编码器的拷贝数提取器(CNE),并对输入数据进行非线性降维。
将获得的低维特征表示与mEE的输出拼接以获得细胞系的最终特征表示。
最后,融合药物和细胞系的特征表示,并使用完全连接的层来预测癌细胞系中的药物反应。
在特征提取通道之后,作者连接提取的特征,通过几个全连接层融合它们,并进行预测。在线性层和非线性激活函数之间添加批量归一化(BN)层来标准化激活函数的输入。
经过 sigmoid 函数后,输出被映射到 (0, 1),它对应于药物反应的标准化值。

5.结果

5.1 性能分析

在这里插入图片描述

5.2 随机测试

在性能对比实验中,可能会出现一种药物对某些细胞系的反应数据被划分到训练集,而这种药物对其他细胞系的反应数据被划分到测试集的情况。
随机选择 10% 的药物,并使用与其相关的所有药物细胞系对作为测试集。其余 90% 的药物中,80% 用于训练模型,10% 用于验证。
在这里插入图片描述
随机选择 90% 的细胞系,并使用所有相关的药物细胞系对进行训练,其余 10% 进行测试。
在这里插入图片描述

5.3 特征消融实验

在这里插入图片描述
在这里插入图片描述

5.4 可视化

在这里插入图片描述

5.5 数据缩减实验

由于实际应用中标签的稀缺,很多模型的效果往往远小于实验效果。因此,作者人为地减少训练数据量,并观察每个模型效果的衰减情况。在五折交叉验证中随机选择每个训练集中的一部分进行训练,这部分的比例从 1/2 减少到 1/16 。
在这里插入图片描述

5.6 药物基因组学分析

对这些基因进行了两次全局富集分析,包括基因本体(GO)生物过程和KEGG通路富集。根据结果​​,这些基因在 364 个 GO 术语和 110 个通路中显着富集(调整后的 p 值 < 0.001)。
在这里插入图片描述
作者还根据细胞系所属的组织对预测的前 1% 药物细胞系对进行分类(图 6),选择数量最多的三个癌症组织(即肺、皮肤和胰腺)进行分析。重要的是,作者还发现这些组织中许多细胞系药物对的预测结果已得到现有文献的证实(表 5)
在这里插入图片描述
在这里插入图片描述

6.结论

综上所述,作者认为NeRD作为一个高度可扩展的框架,可以有效融合细胞系和药物的多维特征,从而准确预测细胞系的药物反应。此外,该模型可广泛应用于整合其他组学数据,从而有利于临床癌症治疗和未来药物反应预测的研究。因此,它将为临床癌症治疗提供更加多样化的观点。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
《Android编程:The Big Nerd Ranch指南(第5版)》是一本针对Android编程的权威指南。这本书由Phillips、Stewart和Marsicano三位经验丰富的作者撰写,并由Big Nerd Ranch出版,对于想要学习和掌握Android编程的读者来说是一本必备的参考书。 这本书的第5版是一本全面更新和改进的指南,以帮助读者掌握最新的Android编程技术。它深入介绍了Android的核心概念和最佳实践,从而帮助读者全面了解Android应用的开发过程。 这本书以互动式的方式逐步引导读者进行Android应用开发,从创建一个简单的"Hello World"应用开始,逐渐深入介绍不同方面的开发技术,包括界面设计、数据存储和管理、网络通信、多媒体和设备功能等。 它采用了清晰明了的语言和丰富的示例代码,帮助读者理解和实践各种概念和技术。此外,这本书还通过挑战性练习和应用案例来培养读者的实际编程能力和解决问题的能力。 该书还引入了与现代开发实践相关的最新主题,例如响应式编程、单元测试和持续集成等。这些主题使读者能够更好地开发和维护高质量的Android应用。 总的来说,《Android编程:The Big Nerd Ranch指南(第5版)》是一本重要的Android编程指南,对于想要学习和应用这一技术的读者来说具有很高的实用价值。无论是初学者还是有经验的开发者,都可以通过这本书提供的深入理论和实践指导,加强他们的Android编程技能。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值