论文解读:基于BERT和二维卷积神经网络的迁移结构,从序列信息中识别DNA增强子

论文基本情况

作者单位:台湾省台北医科大学
发表期刊:《Briefings in Bioinformatics》,2020年期刊影响因子:11.622
数据和代码:https://github.com/khanhlee/bert-enhancer

1. 研究背景

生物背景:增强子的鉴定一直是生物信息学中的一项重要任务,它是DNA上一小段可与蛋白质结合的区域,与特定蛋白质结合之后,基因的转录作用将会加强。增强子可能位于基因上游(DNA链上的特定点朝5’端出现的DNA),也可能位于下游(DNA链上的特定点朝3’端出现的DNA),如下图所示。算法背景:BERT是一个基于双向编码器是一种简单而强大的语言模型,BERT采用了语境化词嵌入的概念,以捕捉词语出现时的语义和上下文。本文将DNA序列视为句子,然后使用BERT模型将它们转换成固定长度的数字矩阵,再利用2D CNN进行最终的预测。

在这里插入图片描述

2. 实验数据

使用iEnhancer-2L的研究数据,该数据来自9个不同的细胞系,并将其分割成200 bp的片段,然后通过 CD-HIT去除相似相高于20%的片段,最终得到1484个增强子和1484个非增强子作为训练数据,200个增强子和200个非增强子用作测试数据。
备注:在测试集非增强子中有两个DNA名称重复,重复的DNA名称为:hg19_ct_UserTrack_3545_22rangechr1368878800-693675995pad0和hg19_ct_UserTrack_3545_23rangechr277310893-781820925pad0

3. 实验方法

3.1 数据预处理

  1. 将标准FASTA格式的正常DNA序列进行分割,以滑动窗口选取值形成等长DNA片段,本文滑动窗口的大小为200,将得到的长度为200的DNA片段视为一个句子。
  2. 每个DNA片段在碱基之间插入空格,形成一系列的核苷酸,每个核苷酸都被假装成人类语言中的一个单词,方便BERT进行编码。

3.2 BERT算法应用

在词嵌入生成器的基础上已有几种常用的传统嵌入方法,如前馈神经网络、Word2Vec和fastText和词表示的全局向量(Glove)。BERT是同时利用前后两个方向和位置信息的一种迁移学习方法,广泛应用于回答问题和语言推断的NLP领域,能够更有效地捕捉DNA序列中的隐藏信息。本文作者采用基础的BERT包含12层768个隐藏单元,BERT在训练前阶段使用(MASK)令牌替代15%的token。因为微调阶段不包含(MASK)标记,所以MASK的15%token遵循下图规则,以防止训练前和微调之间的不匹配:
在这里插入图片描述
本文作者采用基础的BERT包含12层768个隐藏单元,那么训练过程结束后,将每个核苷酸转换为大小为768(默认大小)的上下文化词嵌入向量,窗口大小为n的DNA序列,最终通过BERT编码训练得到n*768维的特征向量。

3.3 分类模型

通过CNN从上下文化的词嵌入向量中提取特征,可以提高预测模型的能力。CNN通常由多个层组成,每个层执行一个特定的功能,将其输入数据转换为有用的表示。因为基于BERT的模型是一个尺寸为200 × 768的二维矩阵,所以作者采用了一个2D CNN,整个实验方法的流程图如下图所示。

在这里插入图片描述

4. 实验结果

4.1 BERT特征与先进特征的比较

将k-mer、PseDNC、PseKNC、Word2Vec、fastText编码的特征与BERT特征进行比较,五折交差验证的结果如下图所示。
在这里插入图片描述

4.2 卷积层数的影响

对每个2D CNN进行超参数优化,以确保比较的公平性和无偏性。下图显示了不同形式的2D CNN之间的ROC曲线,两层CNN的ROC曲线优于其他两层CNN(图2B)。
在这里插入图片描述

4.3 与其他先进算法比较

与EnhancerPred、iEnhancer-2L和iEnhancer-EL进行比较,得到下图结果。
在这里插入图片描述
结论:SN提高超过7%,MCC提高超过5%,ACC提高超过1%。

5. 结论

创新使用基础BERT进行特征编码再利用2D CNN处理BERT学习得到的特征,有效提升了最终的预测效果,为利用序列信息进行生物建模开辟了一条新的途径。

  • 0
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值