论文解读:《基于预先训练的DNA载体和注意机制识别增强子-启动子与神经网络的相互作用》

文字链接:https://academic.oup.com/bioinformatics/article/36/4/1037/5564117?login=true
DOI :https://doi.org/10.1093/bioinformatics/btz694
期刊:Bioinformatics(二区)
影响因子:6.937
发布时间:2020 年 2 月 15 日
数据:https://github.com/hzy95/EPIVAN

1.文章概述

增强子-启动子相互作用(enhancer-promoter interaction,EPI)的鉴定对人类发展具有重要意义。大多数现有的计算方法需要各种基因组数据,这些数据并不总是可用的,尤其是对于新的细胞系。因此,它限制了方法的大规模实际应用。作为替代方案,使用序列的计算方法只有巨大的基因组规模应用前景。作者提出了一种新的深度学习方法,即 EPIVAN,它可以仅使用基因组序列来预测远程 EPI。为了探索关键的序列特征,首先使用预训练的 DNA 载体来编码增强子和启动子;之后,使用一维卷积(CNN)和门控循环单元(GRU)来提取局部和全局特征;最后,注意力机制用于提高关键特征的贡献,进一步提高 EPIVAN 的性能。六种细胞系的基准比较表明,EPIVAN 的性能优于最先进的预测器。此外,作者还建立了一个通用模型,该模型具有迁移能力,可用于预测各种细胞系中的 EPI。

2.背景

启动子是决定转录起点位置和转录频率的 DNA 序列。增强子是 50–1500 碱基对 (bp) DNA 序列,可增加特定基因的转录活性,例如启动子 ,增强子-启动子相互作用(EPIs)对基因表达的调控至关重要,与人类疾病的发生密切相关。然而,EPI 的模式是复杂的:一个增强子可以作用于一个或多个目标启动子,而一个或多个增强子也可以共同调节一个目标启动子,增强子和启动子在位置上没有固定的关系。因此,通过生物实验方法研究EPI需要大量的人力、时间和金钱。随着高通量测序技术和生物技术,如高通量染色体构象捕获(Hi-C)的开发,使用配对末端标签测序(ChIA-PET)的染色质相互作用的分析,为研究EPI提供了大量数据,使以计算方式研究EPI成为可能。
近年来,已经提出并证明了许多基于机器学习的计算方法对于在基因组规模上快速准确地识别 EPI 是有效的。这些方法可以大致分为两类:

  1. 基于基因组数据;基于源自基因组数据的特征训练分类器来识别 EPI。例如,Whalen等人提出了 TargetFinder,一种使用多个基因组峰值数据训练的 EPI 预测模型,如 DNase-seq、DNA 甲基化、转录因子 ChIP-seq、组蛋白标记、CAGE 和基因表达数据,作为模型特征,但这种方法的局限性在于它需要有关如何选择基因组特征的相关知识。
  2. 基于序列。使用来自基因组序列的信息来预测 EPI。例如,Yang等人开发了一种使用词嵌入直接从基因组序列生成特征的预测算法,并训练了一个增强的树集成模型,他们证明所构建的模型可以捕获真实 EPI 和非 EPI 之间的顺序特征,序列特征与某些基因组特征互补,有助于提高性能。Mao等人提出了一种基于注意力的神经网络模型,即 EPIANN,用于识别 EPI,为了进一步提高性能,EPIANN 结合了注意力机制和基于位置的特征解码。Singh等人提出了一种基于深度学习的预测模型 SPEID,它将卷积神经网络 (CNN) 与长短期记忆 (LSTM) 相结合构建 SPEID 模型;Zhuang等人构建了一个预测模型: SIMCNN,该模型使用 CNN 结合迁移学习来训练他们的预测模型。

总体而言,这些研究表明基因组序列本身包含有关增强子是否与基因组中的长距离范围内的启动子相互作用的关键信息。使用深度学习或自然语言处理 (NLP) 技术,很有可能探索增强子与其远程目标启动子之间的隐藏信息。尽管已经取得了相当大的进展,但现有研究的某些方面仍然具有挑战性。首先,EPI 具有细胞系特异性,并且在不同细胞系中的相互作用通常不同**。大多数现有方法可以预测细胞系特异性 EPI,但无法同时准确识别各种细胞系中的通用 EPI。其次,使用 one-hot 或 word embedding 进行序列编码有一些局限性。例如,小语料训练的词向量包含的信息不足。预训练方法在图像处理和自然语言处理方面已经非常成功,例如,预训练的词向量包含更丰富、更准确的信息,这有助于模型节省训练时间和计算资源并提高性能,特别是对于大规模预测. 因此,如何将生物序列分析与预训练技术相结合是一个挑战。
为了解决上述限制,作者提出了 EPIVAN(Promoter-Enhancer Interaction predictor with pre-trained Vector and Attention-based neural Networks),这是一种仅基于基因组序列预测 EPI 的新深度学习模型。这项工作的三个贡献如下:(i)使用经过人类全基因组序列预训练的 DNA 载体来编码增强子和启动子。(ii) 使用注意力机制来提高关键特征的贡献,从而提高模型的性能。(iii) 建立了一个通用模型,该模型具有迁移能力,可用于预测各种细胞系中的 EPI。六个细胞系的基准比较结果表明,EPIVAN 的性能优于现有模型。

3.数据

使用来自 TargetFinder 的相同 EPI 数据集作为原始数据集来评估和比较作者提出的模型与现有方法。该数据集包括六种人类细胞系中的 EPI:GM12878(淋巴母细胞)、HUVEC(脐静脉内皮细胞)、HeLa-S3(宫颈癌患者的外胚层谱系细胞)、IMR90(胎儿肺成纤维细胞)、K562(中胚层-来自白血病患者的谱系细胞)和 NHEK(表皮角质形成细胞)。值得注意的是,TargetFinder 使用ENCODE和表观基因组学(Roadmap Epigenomics)注释来识别每个细胞中的活性增强子和启动子。基于高分辨率的全基因组 Hi-C 数据,该方法的作者将每个增强子-启动子对注释为相互作用(用作阳性样本)或非相互作用(用作阴性样本)。为每个正样本采样了 20 个负样本(正负样本具有相似的增强子-启动子距离分布),因此每个细胞系中正负样本的比例为 1:20。
在这里插入图片描述

4.方法

4.1 提出的EPIVAN预测框架

包含三个主要步骤:序列嵌入、特征提取和注意力机制。之后,生成的特征向量被馈送到最后一层,一个 sigmoid 单元,以预测 EPI。
在这里插入图片描述

4.1.1基于预训练的DNA载体的序列嵌入

如果使用one-hot编码的局限性在于数据存储占用大量空间;另一方面,模型无法捕获序列中隐藏的关联信息,因为每个向量之间的信息是独立的。
所以,作者使用了 dna2vec中提供的预训练 DNA 载体。dan2vec是一种新的方法,基于所述word2vec字嵌入模型,用于计算DNA序列中k-mers(k-mer是长度为k的序列片段)。dna2vec使用人类基因组序列作为学习语料库,将k-mers嵌入到100维连续向量空间中。相比以单细胞系的增强子和启动子基因序列作为训练语料,dna2vec使用更大的学习语料库,因此学习的DNA向量包含更多的序列信息。用预训练的DNA向量对输入模型的基因序列进行编码能够让模型有更多的信息能捕获。在 dna2vec 中,DNA 载体的总和类似于核苷酸串联的事实在实验中得到了验证 [例如 vec (‘ACATT’) – vec (‘ATT’) + vec (‘GAG’) ≈ vec (‘ACGAG’)]。这表明在 DNA 序列上使用词嵌入确实捕获了有用的信息。
Kim证明,在 NLP 中,对预训练的词向量进行适当的微调是有利的,这使得向量更适合特定任务。因此,作者使用微调策略来提高模型的性能。PEP-WORD在实验中验证了当k=6时,模型的计算效率和向量的信息复杂度是最合适的。在这里,作者也选择了k=6。
序列嵌入过程如图所示,被描述为如下:
在这里插入图片描述

  1. 将增强子和启动子序列转换为由单词(6-mers)组成的序列,如果单词包含’N’,则将该单词标记为’NULL’。
  2. 构造一个包含 46 + 1 个单词的字典。
  3. 根据字典将每个基因序列转换成词索引序列(每个词都有自己唯一的索引)。
  4. 根据每个词的索引,在预先训练好的DNA向量矩阵中找出向量,将这些向量组成向量矩阵作为一个序列的表示。
    在第三步之后,作者将每个 DNA 序列转换为 2995 × 1 大小的索引序列(用于增强子)或 1995 × 1 大小的索引序列(用于启动子),并将这些索引序列存储在硬盘上。这些索引序列是模型的实际输入。(实验中增强子序列和启动子序列的长度分别为3000和2000)

4.1.2 特征提取

在 NLP 中,研究人员通常使用循环神经网络 (RNN) 模型来分析序列。与CNN模型相比,RNN模型具有解决长期依赖问题的能力,这对序列很重要。但是,RNN 模型不能并行计算,对于长序列,需要很多时间来学习。CNN模型虽然只从短片段中获取有趣的特征,但其并行计算能力很强。因此,作者将 CNN 模型与 RNN 模型结合起来进行特征提取,首先使用一维卷积提取序列中的局部相关特征,然后将它们输入到双向门控制单元( Bi-GRU) 中提取全局相关特征。
一维卷积层:将两个输入序列的长度指定为 3000(对于增强子)和 2000(对于启动子),过滤器:64 ,内核大小:40,激活函数:Relu。
最大池层:为了降低输出的复杂度,防止过拟合,池窗口大小: 20,步长:20 的 max-pool 层。
Bi-GRU层:门控循环单元(GRU)是对普通RNN的改进,具有解决长期依赖问题的能力。作者假设一个序列的一个片段与前面的序列片段和后续的序列片段都相关。因此,选择使用 Bi-GRU(双向 GRU)来捕捉特征。GRU 输出设置:50 个维度。因为它是双向的,两个相反方向的输出连接起来,总输出维度为 100。

4.1.3 注意力机制

作者在 Bi-GRU 层后面添加了一个注意力层来自适应地学习特征的权重。注意机制最初是由Yang等人提出的,用于文档分类的分层注意力网络。作者假设并非序列中的所有特征对 EPI 都具有同等决定性;因此,添加了这种注意力机制来增强关键特征对模型的贡献。注意力机制在训练过程中能够自适应地学习一个上下文向量,并计算每个特征的隐藏表示和这个上下文向量的相似性,如果相似性越高则赋予该向量的权重越大。注意力机制的公式描述如下:
在这里插入图片描述
其中,hi是第i个特征的隐藏表示,hi来自Bi-GRU层。特征的重要性通过hi和上下文向量hw的相似度来衡量。α为每个特征的归一化权重,由softmax获得。所有特征向量乘以它们相应的权重,然后求和为最终的特征向量v。最后这个特征向量将输入到预测层(一个sigmoid单元)中进行最后的预测。

4.2 模型训练

分批次训练,批次大小为64
为了防止过度拟合,在合并层后面使用了批量归一化和 dropout(0.5)。
权重大小为1:20。
六个数据集随机划分(90%训练,10%测试)
训练次数15。

5.结果

5.1 细胞系特异性模型(EPIVAN-specific)对六种细胞系的预测能力

增强子和启动子的相互作用具有细胞系特异性,不同细胞系相互作用规律不同。因此,在特定细胞系上训练的模型可能不适用于其他细胞系。
下表显示了 EPIVAN -specific用于跨细胞系评估的 AUROC 和 AUPR。当训练集和测试集来自同一细胞系时,EPIVAN-specific 具有很好的预测能力。但,与在同一细胞系上训练和测试的模型相比,该模型在跨细胞系测试方面的性能显着下降。
在这里插入图片描述
在这里插入图片描述

5.2 在所有细胞系上训练的通用模型(EPIVAN-general)

作者建立了一个通用模型 EPIVAN-general,它可以用于任何细胞系。作者合并并打乱了六个细胞系的训练集,以产生一个新的训练集:DALLbltrain(数据是平衡的)。在六个细胞系上训练的EPIVAN-general能够捕获共同特征,但捕获特异性特征的能力低于EPIVAN-specific,所以EPVAN-general可以在6个细胞系上通用,但是在指定细胞系上没有EPIVAN-specific的表现好。结果如下表所示:
在这里插入图片描述

5.3 预训练DNA向量和注意力机制对模型的贡献

为了对比预训练DNA 载体和注意力机制如何影响细胞系特定模型(EPIVAN-specific)和通用模型(EPIVAN-general)的预测性能,作者分别训练了六个模型:
(i)EPIVAN-spe-nopre:EPIVAN-specific模型(训练时移除预训练的 DNA 向量并使用普通的词嵌入);
(ii) EPIVAN-spe-onehot:EPIVAN-specific模型(在训练时移除预训练的 DNA 载体并使用 one-hot);
(iii) EPIVAN-spe-noatt:EPIVAN-specific模型(在训练时移除注意力机制);
(iv) EPIVAN-gen-nopre:EPIVAN-general(训练时移除预训练的 DNA 向量并使用普通的词嵌入);
(v) EPIVAN-gen-onehot:EPIVAN-general(在训练时移除预训练的 DNA 载体并使用 one-hot);
(vi) EPIVAN-gen-noatt:EPIVAN-general(在训练时移除注意力机制)。
在这里插入图片描述
在这里插入图片描述
预训练的 DNA 载体有助于模型更好地捕捉细胞系的共同特征。注意机制有助于模型更好地提取细胞系特异性特征。两者协同工作,大大提升了通用模型的性能。

5.4 提高EPIVAN-general对特定细胞系的能力(EPIVAN-best)

尽管 EPIVAN-general 在六种细胞系上通用,但它在六种细胞系上的表现略差于 EPIVAN-specific。因此,作者使用了一种新的训练策略,通过增强对细胞系特定特征的学习,使 EPIVAN-general 更适合特定细胞系。令EPIVAN-general在指定细胞系上(DCbltrain)进行再训练来增强EPIVAN-general对该细胞系特异性特征的提取,并将再训练后的模型称为EPIVAN-best。

5.4.1 与自己方法比较

在这里插入图片描述

5.4.2 与最先进方法比较

在这里插入图片描述

5.5 EPIVAN-general的迁移能力

迁移学习过程描述如下:
取六个细胞系之一作为新细胞系(Dnewbltrain)即测试集,其他细胞系的训练集聚合为训练集(DALL-newbltrain)(这个训练集是平衡的)。用构建好的训练集DALL-newbltrain 训练模型 EPIVAN-general20 个 epoch。用测试集Dnewbltrain做测试。实验结果表明,仅用五种细胞系的数据训练的EPIVAN-general具有良好的转移能力,可以转移到任何新的细胞系。
在这里插入图片描述

6.总结

在这项工作中,作者提出了一个仅使用增强子和启动子序列就能预测增强子和启动子相互作用的新模型EPIVAN。与现有模型相比,EPIVAN 添加了预训练的 DNA 向量和注意力机制,从序列的角度更好地捕捉了隐藏的信息特征。六个细胞系的实验结果表明 EPIVAN 的性能优于现有模型。此外,EPIVAN 具有训练速度快和数据存储空间少的优点。特别是,作者训练了一个可用于各种细胞系的通用模型,与仅为每个细胞系构建特定模型的其他方法相比,降低了训练模型的成本。通过实验结果表明,预训练的 DNA 载体和注意力机制对模型的性能有很大贡献,进一步证实了作者所提出的模型能够捕获细胞系特异性特征和细胞系共同特征。此外,作者还证明了我们的模型具有良好的迁移能力,可以用作迁移学习的预训练模型。

  • 2
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值