《nature》重磅论文《使用深度卷积网络的精确体细胞变异检测》翻译

1 篇文章 0 订阅

Deep convolutional neural networks for accurate somatic mutation detection

《nature》重磅论文《使用深度卷积网络的精确体细胞变异检测》翻译

介绍:
准确的体细胞突变检测是癌症分析的难点。这篇文章提出一个东西叫做:NeuSomatic,首个使用深度学习神经网络的体细胞突变检测方法。这个东西的表现明显好于旧的方法(比如different sequencing platforms, sequencing strategies, and tumor purities)。NeuSomatic把序列对齐汇聚成小矩阵并包含了超过一百个特征图来有效捕捉变异信号。这个东西可以独立地用来作为检测体细胞变异的办法,或者配合其他已有办法以取得高检测精度。


背景:
体细胞突变是个关键信号,对于癌症的发生、演变、治疗来说。精确体细胞变异的检测是很难得,因为有如下原因:肿瘤-正常部位的交叉污染,肿瘤异质性,sequencing artifacts(这是什么?)and coverage。总体来说,过滤假阳性(由于之前的原因)保留真阳性(常发生在低等位基因频率和低复杂度区域),是高检测精度的关键。

到目前为止,一系列办法被开发用来检测体细胞突变,比如MuTect,MuSE, VarDict, VarScan2, Strelka2, and SomaticSniper.
这些办法用了数据和算法的分析,对于特定的样本表现还是不错的。但是没有什么广泛性、普适性。在我们之前的办法中,SomaticSeq,使用了模型融合的办法,集成了算法正交办法,提高了灵敏度。同时使用了机器学习的办法,集成了约100个特征,来保持高精度,几乎比所有其他单个办法都要好。此外,这个机器学习的骨架模型在使用时依赖于一系列从变异位置抽取的特征。结果这个模型不能从基因文本信息中捕获体细胞突变的关键信息,以区别真正的体细胞突变和检测误差。因而限制了模型表现。特别是在低复杂度和低肿瘤纯度区域的情况下。

这里我们解决了这个问题。用卷积神经网络CNN。 CNN最近在分类问题上表现出强大的能力,包括 germline variant calling和皮肤癌分类。但是这个技术还没有在体细胞突变领域被人使用过。唯一的神经网络使用案例是有人用一个6层的全连接网络应用在手动提取的一些列特征上。这种办法没有用到强大的卷积网络,只是学习了直接从局部区域,用模式识别的思路,重新提取了特征而已。同时,由于全卷积网络的复杂性,他的推广性、普适性不如CNN。

所以我们提出NeuSomatic,首个基于CNN的体细胞变异检测的办法,能够从对齐序列和其他方法中中提取有效信息。和其他关注germline variants的办法不同, NeuSomatic在解决一个更大的没有被解决的,复杂肿瘤样本情况下的精度问题。这个办法能直接从原始数据中捕捉变异信号,能持续输出较高的精度,即使是不同的序列技术(sequencing tech)、样本纯度(sample purities)、序列策略(sequencing strategies 比如 全基因序列whole-genome 对比 目标增强target enrichment)。

结果
NeuSomatic 总览
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
NeuSomatic 的网络输入是根据扫描序列对齐(从肿瘤样本中)和匹配正常样本中来的候选体细胞变异样本。(见图)。从其他办法中找到的体细胞变异也可能被包含其中。对于每个候选变异样本,我们构建了一个矩阵M,大小为 k532,k是通道数,来捕捉核心(locus)四周的中心区域。每个通道有5行,代表4个碱基或者一个‘-’,32列表示候选位置周围的对齐列。

首先三个通道,分别表示reference通道, tumor-frequency通道,normal-frequency 通道,这几个通道的作用文中说是:summarize the reference bases around the candidate locus, as well as the frequency of different bases in that region. 我们用空缺(gaps)来扩充候选中心点附近的参考序列,来捕捉读取对齐(read alignments)时的多余插入(insertions)。所以说,在MSA(multiple sequence alignment)列中,每列表示了肿瘤和正常序列矩阵的ACGT或者空缺的频率。剩余的通道,汇总了其他特征,比如coverage,base quality, mapping quality, strand-bias,clipping info for reads supporting different bases。如果NeuSomatic方法被用在模型融合中,可以使用额外的通道,来对应那些单独的体细胞变异检测方法所使用的特征。在这种精度下,外加全面的结构化的特征提取,NeuSomatic可以利用必要的肿瘤和正常组织和reference中的信息,来区别低等位基因频率下的基因变异和测序误差,获取体细胞变异。这种设计方便CNN中的卷积过滤器能够在矩阵的小块中提取模式特征。

和其他CNN模型比较,DeepVariant在模型输入时输入了阅读堆积式(read pileup)的基因变体识别。作为对比,我们的办法是每一列是基于一个频率的汇总,来作为模型的输入。这简化了CNN的结构,使得实现起来更有效率。比如,DeepVariant 需要约1000个cpu核-小时来计算30个全基因样本对应的基因变异。而一个单独的NeuSomatic能从30个肿瘤-正常样本对中检测体细胞变异,需要约156个cpu核-小时。另一个基因变异发现办法,Clair-voyante,使用3个通道来汇总等位基因,删除的、插入的数量。作为对比,我们用了一个基础的频率矩阵汇总了这些动作,并使用了相关的之前提到的数据扩增办法,这就能够代表所有的插入、删除动作,在所有的窗口中。

NeuSomatic 利用了给定的特征矩阵,部署了一个原始的CNN结构来预测候选体细胞变异位置的类型和长度。这个CNN保罗9层卷积层,4个区块,带有shortcut identity短路连接,(受resnet启发),但是是一个不同的变种,来适应所需要的输入结构。我们在最后一层使用了两个softmax分类器和一个回归器。第一个分类器用来判断这个候选者是否是体细胞,或者SNV、插入、删除。这个第二个分类器用来预测体细胞变异的长度,四种分类结构:0表示非体细胞,1、2、大于2表示长度。回归器用来预测体细胞变异的具体位置。使用这些预测的结果我们就能够判断一系列的体细胞变异。如果删除插入(INDELs)的长度被检测出超过了2,我们就会执行一个简单的后处理步骤,来处理和那些位置的重合的读取片段,来解决从对齐CIGAR序列读取的INDEL序列。(we perform a simple post-processing step on reads overlapping that position to resolve the INDEL sequence from the read alignment CIGAR string)他妈的,这英文怎么这么绕。这种办法依据证明性能卓越,对于Illumina公司的数据序列来说。为了更高的错误率序列、数据、更复杂的本地对齐后处理被执行以便解决INDEL序列。

既然NeuSomatic能被单独来用或者用来做模型融合,那么我们用NeuSomatic-S来指代单独使用的模型,NeuSomatic就表示融合的模型。我们拿NeuSomatic和NeuSomatic-S和现在主流的模型如MuTect2, MuSE, SomaticSniper, Strelka2, VarDict, and VarScan2作比较。我们比较了多个合成的和真实的数据集,我们的报告如下,合成数据集的顺序是以一个不断增加的体细胞变异检测难度的顺序排列的。难度的高低是考虑了数据集中的AF指标。

比较:略

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述


总结


NeuSomatic是第一个基于深度学习的框架体细胞突变检测,这是高性能且通用的。使用相同的CNN架构时,它可以实现
跨多个数据集和不同肿瘤纯度的最佳准确性。从合成到真实的数据集,涵盖从全基因组到靶向以及多种测序策略多种测序技术,从短读到高错误的长读。特别是对于低肿瘤纯度和低等位基因频率,NeuSomatic明显优于其他基因最新的体细胞突变检测方法,展示了其解决难题的能力。NeuSomatic利用卷积网络,有效实现神经网络解决体细胞突变检测速度和准确性问题。它使用了新颖的总结肿瘤/正常比对信息作为一组输入矩阵的办法,可以有效地捕获基因组环境中的主要信号。在这些矩阵上训练的CNN体​​系结构可以直接从原始数据中学习特征。从观察到的训练数据中学到的深层功能可以准确识别可以区分真正的变异与测序错误,交叉污染或覆盖偏差所带来的假象。我们相信NeuSomatic通过为体细胞突变提供一种非常广泛适用的方法,极大地改善了最新技术检测。


作者Sayed Mohammad,原创翻译自nature communication网站,
原文地址是https://www.nature.com/articles/s41467-019-09027-x.pdf

  • 0
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
动机:了解癌症的分子机制是有效诊断和治疗癌症患者的重要步骤。 借助大规模癌症基因组计划的大量数据,一个开放的挑战就是要从驱动体突变,途径和基因集(或核心模块)中区分出导致癌症形成和发展的驱动因子突变,突变体和积累在体细胞中的随机客体,但无助于肿瘤发生。 由于突变的异质性,当前的分析通常仅限于已知的途径和功能模块,以丰富体细胞突变。 因此,迫切需要发现新的途径和功能模块。 结果:在这项研究中,我们提出了一种新的方法来鉴定癌症中的突变核心模块(iMCMC),而没有来自肿瘤患者的癌症基因组数据以外的任何其他先验信息。 这是一种基于网络的方法,其中整合了三种数据:体细胞突变,拷贝数变异(CNV)和基因表达。 首先,将前两个数据集合并以获得一个突变矩阵,在此基础上构建一个加权突变网络,其中顶点权重对应于基因覆盖度,边缘权重对应于基因对之间的互斥性。 类似地,从表达矩阵生成加权表达网络,其中顶点和边缘权重分别对应于基因突变对其他基因的影响以及与基因突变相关的表达的皮尔逊相关性。 然后,通过将这两个网络进一步组合而获得一个集成网络,并通过使用优化模型来识别最相关的子网。 最后,我们通过显着性和排他性测试进行过滤,从而获得了用于肿瘤的核心模块。 我们将iMCMC应用于多形性癌基因组图谱(TCGA)胶质母细胞瘤(GBM)和卵巢癌数据,并确定了几个突变的核心模块,其中一些涉及已知途径。 大多数牵连的基因是以前报道与致癌作用有关的癌基因或抑癌基因。 作为比较,我们还对三种数据中的两种进行了iMCMC,即结合了体细胞突变和CNV的数据集,其次是结合了体细胞突变和基因表达的数据集。 结果表明,基因表达或CNV确实为原始数据提供了额外的有用信息,可用于识别癌症的核心模块。 结论:这项研究通过整合多个数据源来鉴定癌症中突变的核心模块,证明了我们的iMCMC的实用性。 除了提出一种普遍适用的方法外,我们的发现还提供了在GBM或卵巢癌中反复出现扰动的几种候选途径或核心模块,以供进一步研究。
卷积神经网络分类器在图像识别、目标检测、自然语言处理等方面有着广泛的应用。 以图像分类为例,我们可以使用卷积神经网络分类器来对图像进行分类。具体的应用场景包括人脸识别、车辆识别、动物识别等。 在人脸识别中,我们可以使用卷积神经网络分类器来对人脸图像进行分类,以识别出不同的人脸。在车辆识别中,我们可以使用卷积神经网络分类器来对车辆图像进行分类,以识别出不同的车型。在动物识别中,我们可以使用卷积神经网络分类器来对动物图像进行分类,以识别出不同的动物种类。 在分类器设计方法的选择上,我们可以根据具体的应用场景来选择不同的方法。例如,在图像分类中,我们可以选择使用经典的卷积神经网络结构,如LeNet、AlexNet、VGG、ResNet等,也可以使用更加先进的结构,如Inception、Xception、MobileNet等。 神经网络的原理是通过对输入数据进行一系列的线性和非线性变换,以提取输入数据的特征,最终将特征映射到相应的输出结果上。神经网络的训练过程通常使用反向传播算法来更新网络中的参数,以使网络的输出尽可能接近训练数据的真实标签。 在神经网络结构流程设计上,我们需要根据具体的应用场景来设计合适的结构。一般来说,卷积神经网络包括卷积层、池化层、全连接层等不同类型的层,我们需要根据具体的输入数据的特点来选择不同的层,并将它们组合起来构建出合适的神经网络结构。 在神经网络算法程序设计上,我们需要使用相应的深度学习框架,如PyTorch、TensorFlow等来实现神经网络算法,并进行训练和测试。具体的程序实现过程可以参考相应的深度学习框架的文档和教程。 在程序仿真及结果分析上,我们需要使用相应的数据集来进行训练和测试,并对训练和测试结果进行分析和评估,以确定模型的性能和效果。具体的分析和评估指标包括准确率、召回率、F1值等。 最后,在结论中,我们需要总结出模型的性能和效果,并对模型的优缺点进行评价和分析。同时,我们也需要对未来的研究工作进行展望,以推进该领域的发展。 参考文献: [1] LeCun Y, Bengio Y, Hinton G. Deep learning[J]. Nature, 2015, 521(7553): 436-444. [2] Goodfellow I, Bengio Y, Courville A. Deep learning[M]. MIT Press, 2016. [3] Simonyan K, Zisserman A. Very deep convolutional networks for large-scale image recognition[J]. arXiv preprint arXiv:1409.1556, 2014. [4] He K, Zhang X, Ren S, et al. Deep residual learning for image recognition[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2016: 770-778.

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值