论文地址:Predicting drug response of tumors from integrated genomic profiles by deep neural networks
利用深度神经网络预测整合基因组谱的肿瘤药物反应
作者信息:
Yu-Chiao Chiu1, Hung-I Harry Chen1,2, Tinghe Zhang2, Songyao Zhang2,3, Aparna Gorthi1, Li-Ju Wang1, Yufei Huang2,4§, Yidong Chen1,4§
1德克萨斯大学健康科学中心格里希儿童癌症研究所
2德克萨斯大学圣安东尼奥分校电气和计算机工程系
3西北工业大学自动化学院信息融合技术实验室
4德克萨斯大学健康科学中心流行病学和生物统计学系
论文信息:
在美国加利福尼亚州洛杉矶举行的智能生物学和医学国际会议(ICIBM 2018)上以及BMC Genomics增刊上发表。
研究背景:
由于肿瘤的异质性,准确预测药物反应和鉴定新型抗癌药物仍是一项具有挑战性的任务。
由于患者的药物反应数据难以获得,大规模的基于细胞系的筛查可以极大地促进癌症药物基因组学的研究。但由于体内和体外生物系统的根本差异,将从细胞中获得的药物基因组学特征转化为肿瘤药物反应的预测仍需要继续研究。
本文旨在基于基因组谱预测肿瘤对抗癌药物的反应。作者设计了一个深度神经网络(DNN)模型,利用肿瘤基因组图谱(TCGA)的大量肿瘤样本,从高维突变和表达谱中了解遗传背景。利用GDSC中的药物基因组学数据对模型进一步训练,最终再次应用于TCGA数据,预测肿瘤的药物反应。
研究方法:
数据源:
CCLE: 935个细胞系的基因表达数据E^CCLE
UCSC TumorMap :11,078个TCGA泛癌肿瘤数据E^TCGA
作者将基因表达数据表示为log以2为底(每百万个基因的转录本数+1),对于突变数据,考虑了四种类型的非同义突变,包括错义和无义突变、移码插入和删除。有突变赋值为1,野生型赋值为0。
GDSC:990个细胞系对265种抗癌药物应答数据。
对GDSC中缺失的数据使用R包VIM和laeken,通过5种最接近的药物的IC50值加权平均值进行推算。
本研究分析了25种组织类型的622个包含有效表达、突变和IC50数据的细胞系和33种肿瘤类型的9059个包含表达谱和突变谱的肿瘤。经过数据预处理后,对CCLE和TCGA样本中的18,281个突变基因和15,363个表达基因数据进行分析。
DNN模型概述
提出的DNN模型用于根据细胞或肿瘤的基因组特征预测IC50值。
输入为样本c的突变和表达向量对。