深度学习中的生物数据

基因表达

 

生物学的中心教条指出,DNA被转录为mRNA,然后被翻译为蛋白质。我们知道不同的基因以不同的水平表达,并且这些表达水平可以随细胞而变化。基因表达的这些差异使细胞即使在具有相同的DNA“代码”的情况下也表现出不同的行为。

RNA-Seq是一种我们可以定量细胞样品中基因表达的方法[1]。基于mRNA的水平与该基因产生的蛋白质的水平直接相关的想法,RNA-Seq试图量化mRNA的丰度。这有效地使我们了解了每个基因在特定细胞类型或特定条件下的“活跃”程度。

 
 

RNA-Seq从细胞中提取mRNA开始。由于mRNA从DNA转录并被翻译成蛋白质,因此我们可以使用mRNA的量来推断基因表达(即,发现的mRNA越多,基因表达就越高,相应的蛋白质就越多)。

mRNA被片段化并转化为cDNA(互补DNA)。该cDNA代表转录该mRNA的DNA序列。然后可以将这些小序列重新定位到参考基因组上,以确定读数来自哪个基因。具有较高表达的基因应具有较高数量的定位读图,因为来自细胞的mRNA量较大。大量的读数可以存储为基因表达,倍数变化或一个基因比另一个基因表达多少倍。

基因表达的丰度通常用于疾病的表型分类以及基因推断。该实验经常研究健康和患病样品之间的差异,例如健康患者的样品与癌症患者的样品之间的差异,或者他们可以分析癌症患者的样品与经过某种药物治疗的相同样品之间的基因表达差异。一旦识别出这些差异表达的基因,就可以用功能性术语或途径进行注释,以了解病例和对照样品之间哪些细胞机制正在发生变化。

深度学习和RNA序列数据

 

人们相信,只有一小部分地标基因与更大的目标基因相关[2]。通过了解这些标志基因的丰度,无论是原始计数丰度还是通过倍数变化,许多预测模型都试图推断这些靶基因的总表达谱。Chen等[2]的D-GEX解决了此类问题的深度学习示例。他们的模型使用MLPNN,以便从标志性基因集中预测目标基因的基因推断。特别是,作者使用来自943个地标基因的表达数据来生成代表9,520个靶基因表达水平的输出。

DNA-蛋白质相互作用

 

为了使基因转录为RNA,并因此如上所述进行“表达”,转录因子蛋白和其他辅因子必须在转录起始位点汇合。这些蛋白质通过激活和抑制来调节基因表达。具有高通量测序的染色质免疫沉淀(ChIP-Seq)是一种实验测定法,旨在研究这些转录因子蛋白在DNA上的结合位置,以试图推断它们控制的基因[3]。

 
 
 

ChIP-Seq首先将DNA剪切成小片段。根据要研究的靶蛋白选择特异性抗体。该抗体与靶蛋白结合,并允许该蛋白与结合的DNA通过免疫沉淀分离。

然后纯化DNA,并使用高通量测序进行测序。然后将读段重新定位到参考基因组上。如果蛋白质结合到序列中的特定区域,则读取的量会更大,并且在查看序列中的读取分布时会产生一个峰值。通过将这些峰与产生背景信号的对照实验进行比较,可以识别出明显的峰,以确定所选转录因子的结合位置。

通过分析在峰处发现的序列中的重复模式,研究已经能够找到被认为是不同转录因子结合基序的短序列。

 

由于序列数据是有序的,因此保留序列信息非常重要。但是,这些“字母”或基数必须用数字表示。因此,必须将它们编码为可以数字表示每个基数的格式。最常见的方法是单热向量编码,其中每个字母由零向量表示,唯一位置处有一个。由于我们有四个不同的字母(A,C,T,G),因此向量的长度为四,一个位置将指示其代表的碱基。

 
 
 
 

另一个专注于识别调节功能的高通量测序技术是DNAse-Seq [4]。在染色质结构中,DNA通常紧紧缠绕在组蛋白周围,使其难以与蛋白结合。为了使转录发生,必须从这些组蛋白上解脱DNA,使转录因子结合到开放序列上。

在该测定中,从样品细胞中分离出DNA,并用DNase I消化。该酶能够将可及的DNA切割成较小的片段。像以前的工作流程一样,使用高通量测序对这些片段进行测序,然后重新定位到参考基因组上。映射的读取将在基因组上产生峰,并且通过将这些信号与背景输入进行比较,可以发现重要区域。

DNA-蛋白质相互作用和深度学习

 

DanQ是一种结合了ChIP-Seq和DNAse-Seq数据的深度学习方法[5]。它通过将基因组划分为200个碱基对的分箱并在ChIP-Seq分析和DNAse-Seq分析中找到包含显着峰的靶标来实现此目的。这提供了一个二元载体,该载体指示何时转录因子与可接近的DNA结合,从而推断给定转录因子在该序列上可能存在功能相互作用。

DanQ将围绕200个碱基对的bin的1000个碱基对序列作为输入。使用一键向量编码对序列进行转化。它使用具有整流器激活功能的卷积层作为输入矩阵上的图案扫描器。在模型训练过程中,这些卷积滤波器经过训练以定位权重矩阵,当它们在输入序列中找到相应的图案时,权重矩阵将产生信号。最大池化用于减小输出矩阵的大小。

随后的BRNN层用于考虑图案之间的方向和空间距离。LTSM单元用于加快培训时间。使用整流线性单元将输出传递到完全连接的层。然后,最后一层使用S型激活函数来创建一个向量,该向量用作与实际目标向量进行比较的功能标记的概率预测。

 

蛋白质类

 

生物学的第二个基本原理是蛋白质序列决定其形状,然后其形状决定其功能。蛋白质是由氨基酸构成的,通常每个氨基酸都由一个唯一的字母表示。与DNA和RNA相似,蛋白质可以由字母序列表示,但是蛋白质的字母大小为20,而不是4。这些氨基酸的顺序在蛋白质的结构中起着重要的作用。蛋白质结构有四个级别:

1.一级-氨基酸的一维序列

2.二级–氨基酸形成局部的基序结构,例如α-螺旋,β-折叠和匝。

3.第三级–蛋白质的完整三维形状

4.第四级–多个亚基的连接,如果蛋白质具有一个以上的亚基

 
 
 

蛋白质结构与深度学习

 

许多计算方法试图基于一级结构(即氨基酸序列)预测蛋白质的三级结构。确定蛋白质的三维结构可以确定蛋白质的功能域或区域(即与其他分子结合的区域)。但是,由于氨基酸分子可以沿多轴旋转,并且它们在三维空间中的位置可以移动,因此可能的结构的搜索空间很大。另外,不同的氨基酸具有不同的电荷面积和电荷水平,并且在量子力学水平上对氨基酸之间的相互作用力进行建模在计算上是昂贵的。因此,大多数计算预测方法都是基于试探法,可能无法获得最佳结果。

另一方面,我们知道蛋白质的结构取决于序列,也曾尝试使用该序列直接跳跃以发挥作用。一个这样的例子来自刘学良的论文,他提出了一个新颖的RNN模型,该模型将蛋白质序列作为输入,并预测蛋白质的功能作为输出[6]。由于蛋白质序列的长度可变,因此RNN模型非常适合蛋白质序列分析。他的模型是双向RNN(BRNN),并使用长短期记忆单元来帮助模型更快地训练。该模型的双向方面允许从左到右以及从右到左扫描氨基酸序列,从而提供其过去和将来的背景信息。

 
 

生物医学影像

 

生物医学图像通常用于治疗患者。MRI,PET和CT扫描等不同的技术可以为医生提供有关患者受伤和疾病标记的见识。但是,取决于成像技术和生理状况,不同类别之间可能存在视觉相似性,而同一类别的图像之间可能存在视觉差异。

右边的图像取自Qing Li等人的研究[7]。该图像代表了间质性肺病(ILD)的高分辨率计算机断层扫描(HRCT)。ILD代表了肺实质中的一大类疾病。在图像中,第一行显示正常健康的肺部图像。第二行显示了肺气肿患者的图像。第三行显示了毛玻璃不透明的肺部示例。第四行显示肺纤维化。最后一行显示了含有微结节的肺。

根据这些图像,很明显,不同类别之间可能存在相似之处,而同一类别中可能存在差异。这给医生带来了问题,尤其是在同一图像中存在多个问题或类别的情况下。因此,为了对生物医学图像进行分类,已经开始使用深度学习方法。但是,他们的目标不仅是能够对这些图像进行分类,而且要使用它们的模型来找到类别之间的歧视性特征。

 
 

生物医学图像数据与深度学习

李清等人的研究。提出使用CNN模型对HRCT技术生成的ILD图像进行分类[7]。使用此模型来处理静态大小的图像,以及生成特征图,这些特征图又可以解释为特征选择。他们使用一个卷积层,然后使用三个完全连接的层。给定输入作为肺的HRCT图像,他们训练了他们的模型以能够将图像分类为上述五类之一。训练后,他们使用卷积层中的内核来可视化模型发现的重要特征。

 
 
 

参考

 
  1. Wang Z,Gerstein M,Snyder M.RNA-Seq:转录组学的革命性工具。自然评论遗传学。2009; 10(1):57-63。doi:10.1038 / nrg2484。
  2. Chen T,Li T,Narayan R,Subramanian A,Xie X.深度学习的基因表达推论。生物信息学2016; 32(12):1832-1839。doi:10.1093 / bioinformatics / btw074
  3. Landt SG,Marinov GK,Kundaje A等。ChIP-seq准则和ENCODE和modENCODE联盟的实践。基因组研究。2012; 22(9):1813-1831。doi:10.1101 / gr.136184.111。
  4. Song L,Crawford GE。DNase-seq:一种高分辨率技术,用于在哺乳动物细胞的整个基因组中定位活性基因调控元件。冷泉港协议。2010; 2010(2):pdb.prot5384。doi:10.1101 / pdb.prot5384。
  5. Quang D,Xie X. DanQ:混合卷积和递归深度神经网络,用于量化DNA序列的功能。核酸研究。2016; 44(11):e107。doi:10.1093 / nar / gkw226。
  6. Liu X.从序列预测蛋白质功能的深度递归神经网络。2017. arXiv:1701.08318
  7. 李Q,蔡W,王X,周Y,冯D D,陈M.“带卷积神经网络的医学图像分类”。2014年第13届控制自动化机器人与视觉国际会议(ICARCV)。新加坡,2014年,第844-848页。doi:10.1109 / ICARCV.2014.7064414

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值