基于机器学习和肿瘤分子谱降维的体内药物反应预测研究
作者信息:
Linh Nguyen1,2,Stefan Naulaerts1,Alexandra Bomane1,Alejandra Bruna3,Ghita Ghislat4和Pedro J. Ballester1
1马赛癌症研究中心。
2越南河内科学技术大学药理学、医学和农学生物技术系。
3英国剑桥研究所癌症研究所,剑桥大学李嘉诚中心。
4 Marseille-Luminy免疫中心。
研究背景
抗癌药物的功效强烈依赖于患者自身,因此需要找到准确的方法来预测哪些患者将对给定的抗癌治疗作出反应。
迄今为止,主要方法是鉴定特定的体细胞突变作为治疗反应者和非反应者的单基因生物标志物。这种方法能够预测患者对某些药物的反应,但是绝大多数药物的标志物尚未被发现。此外通常发现的药物标记物对特定癌症类型具有预测性,这意味着它可能无法预测其他类型患者的反应。而且大多数情况下已知的药物-基因对并不是药物反应的强预测因子。
例如:EGFR在非小细胞肺癌(NSCLC)中的突变状态是FDA批准的对Erlotinib反应的标志物。在某项研究中发现EGFR突变NSCLC肿瘤的反应率仅为16%(即准确率为16%)。同一项研究表明三分之二的NSCLC患者通过不涉及EGFR突变的分子机制对厄洛替尼作出反应。
上述表明,单一的基因 - 药物反应关联经常无法在临床上产生重大影响。在这种背景下,机器学习(ML)正在成为一种有前途的精确肿瘤学补充方法。
ML应用于此问题的限制因素是相关数据的可用性。 尽管通常承诺公开发布用于精确肿瘤学的新临床药物基因组学数据集,但药物反应数据通常被排除在外。即使包含该信息,癌症患者通常在样本采集后接受药物组合和多种治疗方法,从而妨碍直接关联和药物反应新预测因子的发现。
在这种情况下,患者衍生异种移植(PDX)模型对于补充临床数据非常重要。它保存了原始癌症样本和临床人群中观察到的肿瘤内和肿瘤间异质性。
PDX模型可以看成是NCI-60细胞系的替代。它将取自病人的小块肿瘤组织植入实验小鼠体内,模拟其原来的生长环境,最大程度的保留肿瘤自身的特征,同时由此培养的肿瘤还可移植给其他小鼠,扩大样本规模,用于各种研究。
NCI-60细胞系的缺点:
1.缺乏异质性,对癌症的研究往往过于片面。
2.经过上千代的传代培养、无数实验室的流通,细胞的基因组和行为都背离 了当初的模样。
3. 细胞在培养和流通过程中常发生污染和变异问题,而这些问题不易被研究者察觉。
这些都造成了研究领域对更加合理的研究模型的需求。
PDX的缺点----移植成功率较低
研究方法
数据集:NIBR-PDXE
来源:
[1] GAO H, KORN J M, FERRETTI S, et al. High-throughput screening using patient-derived tumor xenografts to predict clinical trial drug response[J]. Nature Medicine. 21, 1318–25 (2015).
这个Excel文件有五个选项卡,名为RNASeq_fpkm,copy_number,pdxe_mut_and_cn2,PCT_raw_data和PCT_curve_metrics。前三个标签包含异种移植肿瘤的三个分子谱。 RNASeq_fpkm选项卡包含基因表达值。 copy_number选项卡包含每个基因的实际拷贝数。
拷贝数也可以在pdxe_mut_and_cn2选项卡中作为分类变量使用(该表还包含每个基因检测到的突变)。
在这些omic级别中分析了大约400个PDX模型。另外两个选项卡为治疗响应数据。原始响应数据标签(PCT_raw_data)包括每3-4天记录的每个处理的PDX在治疗开始时肿瘤体积变化相对于肿瘤体积的百分比(%ΔTVol)。
最后,处理的响应数据标签(PCT_curve_metrics)包括将PDX响应分类为从原始响应数据计算的四个类别之一。
作者利用NIBR-PDXE数据集来研究ML如何改善肿瘤分子谱的体内药物反应预测。这是第一次针对此目的分析NIBR-PDXE数据。
处理响应数据
对于每个PDX,从处理过的响应数据中检索并计算其类别。同时,作者根据原始响应数据计算类别。计算是基于变量最佳响应(t≥10天时%∆TVol的最小值)和最佳平均响应(t≥10天时平均响应集的最小值)。
检索和计算的响应类别在4758对pdx-治疗对中的277对中存在差异。虽然这种差异很小(