文章目录
论文基本情况
作者单位:台湾省台北医科大学
发表期刊:《Briefings in Bioinformatics》,2020年期刊影响因子:11.622
数据和代码:https://github.com/khanhlee/bert-enhancer
1. 研究背景
生物背景:增强子的鉴定一直是生物信息学中的一项重要任务,它是DNA上一小段可与蛋白质结合的区域,与特定蛋白质结合之后,基因的转录作用将会加强。增强子可能位于基因上游(DNA链上的特定点朝5’端出现的DNA),也可能位于下游(DNA链上的特定点朝3’端出现的DNA),如下图所示。算法背景:BERT是一个基于双向编码器是一种简单而强大的语言模型,BERT采用了语境化词嵌入的概念,以捕捉词语出现时的语义和上下文。本文将DNA序列视为句子,然后使用BERT模型将它们转换成固定长度的数字矩阵,再利用2D CNN进行最终的预测。
2. 实验数据
使用iEnhancer-2L的研究数据,该数据来自9个不同的细胞系,并将其分割成200 bp的片段,然后通过 CD-HIT去除相似相高于20%的片段,最终得到1484个增强子和1484个非增强子作为训练数据,200个增强子和200个非增强子用作测试数据。
备注:在测试集非增强子中有两个DNA名称重复,重复的DNA名称为:hg19_ct_UserTrack_3545_22rangechr1368878800-693675995pad0和hg19_ct_UserTrack_3545_23rangechr277310893-781820925pad0
3. 实验方法
3.1 数据预处理
- 将标准FASTA格式的正常DNA序列进行分割,以滑动窗口选取值形成等长DNA片段,本文滑动窗口的大小为200,将得到的长度为200的DNA片段视为一个句子。
- 每个DNA片段在碱基之间插入空格,形成一系列的核苷酸,每个核苷酸都被假装成人类语言中的一个单词,方便BERT进行编码。
3.2 BERT算法应用
在词嵌入生成器的基础上已有几种常用的传统嵌入方法,如前馈神经网络、Word2Vec和fastText和词表示的全局向量(Glove)。BERT是同时利用前后两个方向和位置信息的一种迁移学习方法,广泛应用于回答问题和语言推断的NLP领域,能够更有效地捕捉DNA序列中的隐藏信息。本文作者采用基础的BERT包含12层768个隐藏单元,BERT在训练前阶段使用(MASK)令牌替代15%的token。因为微调阶段不包含(MASK)标记,所以MASK的15%token遵循下图规则,以防止训练前和微调之间的不匹配:
本文作者采用基础的BERT包含12层768个隐藏单元,那么训练过程结束后,将每个核苷酸转换为大小为768(默认大小)的上下文化词嵌入向量,窗口大小为n的DNA序列,最终通过BERT编码训练得到n*768维的特征向量。
3.3 分类模型
通过CNN从上下文化的词嵌入向量中提取特征,可以提高预测模型的能力。CNN通常由多个层组成,每个层执行一个特定的功能,将其输入数据转换为有用的表示。因为基于BERT的模型是一个尺寸为200 × 768的二维矩阵,所以作者采用了一个2D CNN,整个实验方法的流程图如下图所示。
4. 实验结果
4.1 BERT特征与先进特征的比较
将k-mer、PseDNC、PseKNC、Word2Vec、fastText编码的特征与BERT特征进行比较,五折交差验证的结果如下图所示。
4.2 卷积层数的影响
对每个2D CNN进行超参数优化,以确保比较的公平性和无偏性。下图显示了不同形式的2D CNN之间的ROC曲线,两层CNN的ROC曲线优于其他两层CNN(图2B)。
4.3 与其他先进算法比较
与EnhancerPred、iEnhancer-2L和iEnhancer-EL进行比较,得到下图结果。
结论:SN提高超过7%,MCC提高超过5%,ACC提高超过1%。
5. 结论
创新使用基础BERT进行特征编码再利用2D CNN处理BERT学习得到的特征,有效提升了最终的预测效果,为利用序列信息进行生物建模开辟了一条新的途径。