麻省理工学院、哈佛大学等高校联合在Nature发表了“Biologically informed deep neural network for prostate cancer discovery“。
提出可解释深度学习P-NET模型,该模型能够在前列腺癌症患者基因属性的基础上结合生信中的层次信息预测癌症的状态。
P-NET的生物学可解释性揭示了已建立的基因与新基因变异的相关候选基因,如MDM4和FGFR1,这些基因与预测晚期疾病有关,并在体外进行验证。
广泛的来说,生物学上知情的完全可解释的神经网络使前列腺癌的临床前发现和临床预测成为可能,并可能在各种癌症类型中具有普遍的适用性。
一、模型构架
该架构是使用 Reactome 通路数据集构建。
输入层旨在表示可以测量并输入网络的特征。第二层代表一组感兴趣的基因。较高层代表手动设计的路径和生物过程的层次结构。这个稀疏模型的权重超过 71,000。
具有相同节点数的密集网络拥有超过 2.7 亿个权重,其中第一层包含超过 94% 的权重。
包含稀疏层和密集层的混合模型超过 1400 万个权重。
其中输入层表示可以被检测得到的特征,第二层表示一系列基因,更高层表示手工构造的一些列路径和生物过程。
第一层中每个节点一对一和下一层中的节点连接,下一层每个节点都和第一层中三个节点连接着,这三个节点表示突变、扩增拷贝数以及缺失拷贝数。
第二层的连接情况由Reactome pathway数据集中基因-通路关系构造而来。密集权重的数量计算为Wl = nl× (nl-1 + 1),其中 Wl是每层 l 的权重数,nl 是同一层的节点数。
P-NET 模型不受特定架构的约束,因为模型架构是通过读取用户通过基因矩阵转置文件格式 (.gmt) 文件提供的模型规范以及自定义通路、基因集和用户可以提供具有自定义层次结构的模块。
一个全连接的神经网络的权重W如上图a所示,而通过一个掩码矩阵M与W相乘可以将那些不在Reactome pathway数据集的链接过滤掉,
如上图b所示,后续层与层之间的连接同样也是通过Reactome pathway中的亲子关系来设计。
每层神经网络表达式如下:
y = f [(M *W) T x + b]
其中f是激活函数,M是掩码矩阵,W是权重矩阵,x是输入矩阵,b是偏置向量,*是Hadamard (元素相乘)。激活函数用的是 tanh,f= (e 2x− 1)/(e2x + 1)。最后一层输出层损失函数是sigmoid损失函数。
在每一个隐藏层后都加了一个sigmoid激活函数,由于后面每一层的结点数都在减少,本文在优化过程中增加了后面几层的损失权重。
最终网络的预测值是将所有层的输出取平均值。学习率设置为0.001,损失函数是交叉熵损失函数。
在此基础上,参考DeepExplain library中使用的DeepLIFT方法,给每一层中的每一个节点设置一个得分。
假设一个给定样本t,在l层中有nl个节点,节点可以表示为
,
DeepLIFT模型会给每个节点计算一个重要性得分Cil,s,目标的激活误差可以表示为:∆ t=t−t0 ,这一项等于样本s所有节点得分值之和:
将所有样本的重要性得分相加就可以计算出总得节点级的重要性:
为了减少某些节点(属于过多路径成员的节点)的过度注释所引入的偏差,我们使用考虑每个节点连接性的图形通知函数 f 来调整 DeepLIFT 分数。
如果节点度数大于节点度数的均值加上 5σ,则重要性分数Cil除以节点度数 dil,其中 σ 是节点度数的标准差。
二、实验检验
作者用一组 1,013 种前列腺癌(333 种 CRPC 和 680 种原发性癌症)训练和测试 P-NET,分为 80% 训练、10% 验证和 10% 测试,以预测疾病状态(原发性或转移性疾病)使用体细胞突变和拷贝数数据。
通过使用体细胞突变以及拷贝数预测癌症阶段(基础阶段/转移阶段)。P-NET模型AUC为0.93,AUPR为0.88,准确率为0.83.
经过训练的 P-NET 优于典型的机器学习模型,包括线性和径向基函数支持向量机、逻辑回归和决策树。在 P-NET 中加入额外的分子特征是可行的,但不会影响模型在这个特定预测任务中的性能。
此外,作者评估了稀疏模型是否具有与密集全连接深度学习模型不同的特征。在训练集上训练了一个具有与 P-NET 模型相同数量的参数的密集模型,样本数量从 100 到 811(样本总数的 80%)呈对数增加。
P-NET 模型的平均性能(由 AUC 决定)在所有样本量上都高于密集模型,并且这种差异在较小样本量(最多 500)中具有统计学意义。在这个过程中,P-NET效果都要明显好于稠密网络。
P-NET还与和它结构相同,结点数相同的Dense神经网络进行了对比。
为了了解不同特征、基因、途径和生物过程之间的相互作用,并研究从输入到结果的影响路径,作者在训练后用完全可解释的层可视化了P-NET的整个结构,在聚合的分子改变中,拷贝数变异比突变提供的信息更丰富。
细胞周期途径的多个成员与转移性前列腺癌功能相关,并在治疗耐药环境中进行功能询问。
泛素化和sumo化途径有助于调节多种肿瘤抑制因子和致癌基因,包括AR在临床前模型中,这些通路的失调与前列腺癌的起始和进展有关。
RUNX2是一种调节细胞增殖的成骨转录因子,与前列腺癌患者的转移性疾病相关。
为了评估特定基因对模型预测的相对重要性,作者检查了基因层,并使用DeepLIFT归因方法,获得了基因的总重要性得分。
通过对P-NET训练模型的多层评估,作者观察到Tp53相关生物学对CRPC的收敛性。追踪TP53相关通路与基因水平的相关性,TP53和MDM2的作用已经在前列腺癌疾病进展中确立。
p53通路失调在训练的P-NET模型的多层中的收敛确定了涉及 MDM4的特定弱点,MDM4可以在基因组分层的前列腺癌患者群体中通过MDM4选择性抑制靶向。
总之,P-NET是一种具有生物学信息的深度神经网络,它准确地分类了去势耐药性转移性前列腺癌和原发性前列腺癌。
可视化训练后的模型产生了前列腺癌转移机制的新假设,并为分子分层前列腺癌患者群体的临床翻译提供了直接潜力的见解。
生物引导的神经网络是一种通过建立机制预测模型,将癌症生物学与机器学习相结合的新方法,为生物学发现提供了一个平台,可能广泛应用于癌症预测和发现任务。
代码路径:https://github.com/marakeby/pnet_prostate_paper