论文解读：基于BERT和二维卷积神经网络的迁移结构，从序列信息中识别DNA增强子

最新推荐文章于 2024-04-26 16:08:29 发布

wangpan007

最新推荐文章于 2024-04-26 16:08:29 发布

阅读量1.1k

点赞数

分类专栏：生信论文文章标签：自然语言处理 bert cnn

本文链接：https://blog.csdn.net/wangpan007/article/details/121060269

版权

生信论文专栏收录该内容

19 篇文章 45 订阅

订阅专栏

文章目录

论文基本情况
1. 研究背景
2. 实验数据
3. 实验方法
4. 实验结果
5. 结论

论文基本情况

作者单位：台湾省台北医科大学
发表期刊：《Briefings in Bioinformatics》，2020年期刊影响因子：11.622
数据和代码：https://github.com/khanhlee/bert-enhancer

1. 研究背景

生物背景：增强子的鉴定一直是生物信息学中的一项重要任务，它是DNA上一小段可与蛋白质结合的区域，与特定蛋白质结合之后，基因的转录作用将会加强。增强子可能位于基因上游（DNA链上的特定点朝5’端出现的DNA），也可能位于下游（DNA链上的特定点朝3’端出现的DNA），如下图所示。算法背景：BERT是一个基于双向编码器是一种简单而强大的语言模型，BERT采用了语境化词嵌入的概念，以捕捉词语出现时的语义和上下文。本文将DNA序列视为句子，然后使用BERT模型将它们转换成固定长度的数字矩阵，再利用2D CNN进行最终的预测。

在这里插入图片描述

2. 实验数据

使用iEnhancer-2L的研究数据，该数据来自9个不同的细胞系，并将其分割成200 bp的片段，然后通过 CD-HIT去除相似相高于20%的片段，最终得到1484个增强子和1484个非增强子作为训练数据，200个增强子和200个非增强子用作测试数据。
备注：在测试集非增强子中有两个DNA名称重复，重复的DNA名称为：hg19_ct_UserTrack_3545_22rangechr1368878800-693675995pad0和hg19_ct_UserTrack_3545_23rangechr277310893-781820925pad0

3. 实验方法

3.1 数据预处理

将标准FASTA格式的正常DNA序列进行分割，以滑动窗口选取值形成等长DNA片段，本文滑动窗口的大小为200，将得到的长度为200的DNA片段视为一个句子。
每个DNA片段在碱基之间插入空格，形成一系列的核苷酸，每个核苷酸都被假装成人类语言中的一个单词，方便BERT进行编码。

3.2 BERT算法应用

在词嵌入生成器的基础上已有几种常用的传统嵌入方法，如前馈神经网络、Word2Vec和fastText和词表示的全局向量(Glove)。BERT是同时利用前后两个方向和位置信息的一种迁移学习方法，广泛应用于回答问题和语言推断的NLP领域，能够更有效地捕捉DNA序列中的隐藏信息。本文作者采用基础的BERT包含12层768个隐藏单元，BERT在训练前阶段使用(MASK)令牌替代15%的token。因为微调阶段不包含(MASK)标记，所以MASK的15%token遵循下图规则，以防止训练前和微调之间的不匹配：
在这里插入图片描述
本文作者采用基础的BERT包含12层768个隐藏单元，那么训练过程结束后，将每个核苷酸转换为大小为768(默认大小)的上下文化词嵌入向量，窗口大小为n的DNA序列，最终通过BERT编码训练得到n*768维的特征向量。

3.3 分类模型

通过CNN从上下文化的词嵌入向量中提取特征，可以提高预测模型的能力。CNN通常由多个层组成，每个层执行一个特定的功能，将其输入数据转换为有用的表示。因为基于BERT的模型是一个尺寸为200 × 768的二维矩阵，所以作者采用了一个2D CNN，整个实验方法的流程图如下图所示。

在这里插入图片描述

4. 实验结果

4.1 BERT特征与先进特征的比较

将k-mer、PseDNC、PseKNC、Word2Vec、fastText编码的特征与BERT特征进行比较，五折交差验证的结果如下图所示。
在这里插入图片描述

4.2 卷积层数的影响

对每个2D CNN进行超参数优化，以确保比较的公平性和无偏性。下图显示了不同形式的2D CNN之间的ROC曲线，两层CNN的ROC曲线优于其他两层CNN(图2B)。
在这里插入图片描述

4.3 与其他先进算法比较

与EnhancerPred、iEnhancer-2L和iEnhancer-EL进行比较，得到下图结果。
在这里插入图片描述
结论：SN提高超过7%，MCC提高超过5%，ACC提高超过1%。

5. 结论

创新使用基础BERT进行特征编码再利用2D CNN处理BERT学习得到的特征，有效提升了最终的预测效果，为利用序列信息进行生物建模开辟了一条新的途径。

wangpan007

关注

0
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
论文解读：基于BERT和二维卷积神经网络的迁移结构，从序列信息中识别DNA增强子

文章目录论文基本情况1. 研究背景2. 实验数据3. 实验方法3.1 数据预处理3.2 BERT算法应用论文基本情况作者单位：台湾省台北医科大学发表期刊：《Briefings in Bioinformatics》，2020年期刊影响因子：11.622数据和代码：https://github.com/khanhlee/bert-enhancer1. 研究背景生物背景：增强子是DNA上一小段可与蛋白质结合的区域，与蛋白质结合之后，基因的转录作用将会加强。增强子可能位于基因上游，也可能位于下游。算法背
复制链接

扫一扫

专栏目录