使用精简特征集将非 TCGA 癌症样本分类到 TCGA 分子亚型

癌症传统分类存在局限,TCGA分子亚型虽有成果但应用困难。本文利用5种机器学习方法和TCGA多组学数据构建模型,对非TCGA癌症样本分类,创建了737个模型资源,发现mRNA特征常主导,特征与生物学通路相关,确定影响性能因素和训练样本量,为癌症研究和临床应用提供重要支撑。

研究背景

癌症传统分类主要依据起源器官或组织学特征等,但分子亚型分类更具潜力,不过其在临床应用方面尚处于起步阶段。这是因为多数用于发现亚型的方法难以直接应用于对其他研究或临床试验中的新癌症样本进行亚型分类,而且基因表达特征在亚型发现过程中存在冗余、过拟合以及低预测性等问题。

研究方法

数据收集与处理

     从TCGA获取8791个肿瘤样本的5种数据平台(突变、拷贝数、mRNA、DNA甲基化、miRNA)数据,涵盖26个癌症队列和106个亚型。

     采用基因中心分析方法,在筛选特征时注重减少数量并保留预测性能,同时对缺失值进行处理,构建分层交叉验证集,为后续模型训练做好充分准备。

模型构建与训练

     AKLIMATE:基于核学习与生物通路知识,先利用随机森林模型评估样本,将预测输出转换为距离矩阵后传入弹性网络多核学习系统,其组件随机森林模型基于生物通路信息等先验知识训练。训练中从大量特征中筛选出重要特征训练随机森林分类器,且在本研究中因发现miRNA特征会引入噪声而未使用。

     CloudForest:用Go编写的随机森林包,适合大规模异构数据。先使用所有特征训练随机森林,然后依次选择1000、100、50、10、5和1个最佳特征分别训练模型,通过基尼不纯度衡量特征重要性,针对26种肿瘤类型和6种不同数据集分别进行实验。

     SK Grid:利用Python的Scikit  Learn包,通过递归特征消除和前向后向早期丢弃方法选择特征,为每个癌症队列生成混合和单一数据类型的特征集,再将这些特征集输入14种分类器中寻找最佳组合,分类器包括Adaboost、决策树等多种。

     JADBio:自动化机器学习系统,根据数据集特征(如样本量和特征数量)自动选择合适算法和超参数组合,采用统计等效签名和Lasso等算法进行特征选择,通过网格搜索确定最佳配置,并使用专门的自举算法评估模型在未知数据上的性能。

     subSCOPE:基于深度神经网络,与其他方法不同,它同时在整个癌症队列集上训练,学习识别所有癌症亚型,训练后使用DeepLift计算特征重要性。针对每个癌症队列和数据类型生成大量模型,并通过交叉验证评估和选择性能较好的模型。

研究结果

模型性能与特征分析

     不同方法的顶级模型在队列水平性能较为相似,但在亚型间存在一定差异。在多数癌症类型中,mRNA在顶级模型特征中占据主导地位,并且与原始亚型定义所使用的数据类型密切相关。例如,SKCM亚型最初由突变特征定义,其模型在构建时多选择突变特征;而对于LGGGBM和GEA,DNA甲基化输入特征在构建模型时比基因表达特征更具优势。

     模型在外部数据集METABRIC和AURORA中表现良好,能够较为准确地预测乳腺癌的PAM50标签。研究还发现训练集样本的选择对模型性能有显著影响,经过对比分析,使用包含各种类型样本的全集进行训练所得到的模型效果最佳。

影响模型性能的因素

     单数据类型在部分癌症队列中能够达到与多组学数据联合输入相类似的模型性能。特征数量对模型性能影响至关重要,多数模型在特征数量约为10个时性能趋于稳定。在特征选择效率方面,JADBio表现较为突出,其能够在较少的特征数量下实现较好的性能。

     通过元分析发现,亚型内聚性与模型性能呈正相关,即亚型内样本分离度好、一致性高时模型性能较好;而队列和模型复杂性与性能呈负相关,例如队列中样本数量少、亚型类别多、模型所选特征多等复杂情况会降低模型性能。

 特征与生物学通路关系:不同方法所选择的特征虽然不完全一致,但倾向于集中在相似的生物学通路中。这些共享特征在通路中会形成聚类,并且与已知的癌症驱动通路存在重叠,这充分体现了分子亚型的生物学差异。进一步分析发现,核心特征具有较高的信噪比,在癌症亚型分类中发挥着重要作用。

研究意义与局限

 意义:创建了737个容器化预测模型的公共资源,为临床检测开发奠定了坚实基础;有力地证明了模型能够应用于不同数据平台和样本类型;准确确定了数据和模型特征对分类性能的影响以及所需的训练样本量,极大地推动了癌症研究和临床应用的发展。

 局限:受原始亚型定义的限制,可能无法识别新出现的亚型;在捕捉全基因组特征方面存在困难;未整合多种方法构建集成模型;现有数据集难以应用复杂的深度学习方法。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值