BERT6mA:使用基于深度学习的方法预测DNA N6甲基腺嘌呤位点

《BERT6mA: prediction of DNA N6-methyladenine site using deep learning-based approaches》

  • Sho Tsukiyama , Md Mehedi Hasan , Hong-Wen Deng and Hiroyuki Kurata
  • 日本 九州理工学院生物科学和生物信息学系
  • 2022 年 2 月 28 日
  • Briefings in Bioinformatics, 2022, 1–15
  • https://doi.org/10.1093/bib/bbac053

摘要
N6-甲基腺嘌呤(6mA)在DNA复制、DNA修复、转录和基因表达调控中发挥重要作用。几种实验方法被用来鉴定DNA修饰。然而,这些实验方法既昂贵又耗时。为了检测6mA并弥补实验方法的这些不足,我们提出了一种新的深度学习方法,称为BERT6mA。为了将BERT6mA与其他深度学习方法进行比较,我们使用了包括11个物种在内的基准数据集。在独立测试中,BERT6mA在八个物种中表现出最高的AUC。此外,BERT6mA在一些样本量较小的物种中表现不佳,为了克服这个问题,对BERT6mA进行了两个物种之间的预训练和微调。对特定物种的预训练和微调模型表现出比其他模型更高的性能,即使对于样本量较小的物种也是如此。除了预测之外,我们还分析了BERT6mA产生的注意权重,以揭示BERT6mA模型如何提取负责6mA预测的关键特征。为了促进生物科学的发展,BERT6mA在线网络服务器及其源代码可以在https://github.com/kuratahiroyuki/BERT6mA.git获得。

关键词: 6mA修改预测、BERT、word2vec、GRU、LSTM、CNN

Introduction

N6-甲基腺嘌呤(6mA)是一种重要的表观遗传修饰,在DNA复制、DNA修复、转录和基因表达调控中发挥重要作用。例如,在DNA错配修复中,新合成的链和模板通过甲基化或不通过甲基化来区分,而甲基化作为一种标记,在限制修饰系统中区分自我DNA和外来DNA。此外,之前的一项研究报告称,6mA与癌症等多种疾病有关。因此,6mA的鉴定对于理解表观遗传修饰过程和揭示与疾病相关的表观遗传调控至关重要。

高通量实验方法,包括单分子实时(SMRT)测序技术,甲基DNA免疫沉淀和液相色谱串联质谱,已被用于识别DNA甲基化位点。它们提供了一种以单核苷酸分辨率检测DNA甲基化的有效方法。然而,它们只覆盖了基因组DNA的一部分,没有在整个基因组中检测到6mA位点,其中一些存在测序质量和信号音调比问题。此外,实验方法既昂贵又耗时。因此,开发计算预测模型以降低实验成本并弥补实验方法的不足是有价值的。

已经开发了几种基于机器学习和深度学习的模型来预测DNA 6mA修饰位点。最近,Lv等人提出了iDNA MS,使用随机森林(RF)模型,结合单核苷酸二元编码(MNBE)和核苷酸化学性质和核苷酸频率(NCPNF)编码方法,预测了11个物种的6mA位点。这样的机器学习方法采用基于成分和基于化学性质的编码方法预测4mC和5mC的修饰位点。

另一方面,通过使用最新的深度学习,上述方法仍有待改进。因此,有必要开发一种有效的DNA预测器,该预测器可以学习多个物种中隐藏在6MA和非6MA之间的特征,从而成功地应用于识别特征模式。除了这些编码方法外,还使用了自然语言处理中的嵌入技术。尤其是,word2vec被认为是最好的嵌入方法之一,用于生物信息学分类中的各种分类和预测。

基于深度学习的模型通过从输入序列中捕捉与6mA显著相关的特征,实现了稳健而准确的预测。Wahab等人利用一维卷积神经网络(1D-CNN)记录了水稻和小家鼠体内6mA位点,并在两个物种中都获得了ROC曲线下面积(AUC)大于0.9。基于长期和短期记忆(LSTM)的模型和基于门控递归单元(GRU)的模型通过提取有关记忆机制中核苷酸顺序的信息,表现出稳定的性能。最近,Li等人推出了一种CNN和LSTM的组合模型,其性能优于之前的最先进模型。此外,transformers 双向编码器表示(BERT)是最强大的预测模型之一,它可以实现更快的推理,因为BERT不需要在基于递归神经网络(RNN)的模型(如LSTM和GRU)上执行的连续递归计算。Devlin等人首先提出了一个BERT模型,并对其模型进行了预训练和微调训练,以通过使用较少的数据构建具有较高泛化性能的模型。Zhang等人使用基于BERT的模型,在大肠杆菌和智人中识别出了高性能的6mA位点。Yu等人开发了iDNA ABT,使用BERT和自适应嵌入方法预测6MA,并将其与之前的模型(包括SNNRice6mA和DeepT orrent)进行了比较。

在这项研究中,我们提出了BERT6mA(BERT with word2vec),这是一种新的深度学习方法,可以识别6mA位点,如图1所示。我们将包括DNA序列组成、核苷酸化学性质和word2vec在内的七种编码方法八种深度学习模型相结合,以比较Lv等人的iDNA MS和Yu等人的iDNA ABT的性能。此外,我们还产生了两种新的编码方案,即背景核苷酸化学性质和核苷酸频率(C-NCPNF)和背景单核苷酸二元编码(C-MNBE)。对于许多物种,BERT6mA优于iDNA MS、iDNAABT和其他基于深度学习的模型,但对于6mA数据较少的物种,BERT6mA表现不佳。为了用较少的6mA数据构建BERT,我们采用了预训练和微调方法。除了预测之外,我们还挑战了深度学习的黑匣子问题。我们分析了BERT产生的注意权重,以确定与6mA修饰密切相关的一些核苷酸分布。BERT6mA不仅可用于预测6mA,还可用于揭示BERT6mA区分6mA和非6mA的机制。据我们所知,这是首次采用多种深度学习算法构建6mA预测学习框架的研究,这可能有助于DNA表观遗传学研究。
在这里插入图片描述
本研究分析的总体框架。我们的工作包括特征编码、基于深度学习的预测、评估、跨物种验证、预训练和微调、6mA左右核苷酸的观察、注意力权重分析和web服务器实现。

Materials and methods

Datasets

为了在不同数据量的多物种中比较深度学习和机器学习的性能,基准数据集取自iDNA MS最近发表的文章。6mA位点的数据集来自多个已发表的参考文献和数据库,包括MethSMRT数据库、MDR数据库、GEO数据库和NCBI基因组数据库。它们包含了11个物种的6mA和非6mA数据,包括拟南芥(31873 6mA和非6mA)、秀丽隐杆线虫(7961 6mA和非6mA)、木麻黄(6066 6mA和非6mA)、黑腹果蝇(11191 6mA和非6mA)、弗雷加菌(3102 6mA和非6mA)、智人(18335 6mA和非6mA),中国蔷薇(599 6mAs和非6mAs)、酿酒酵母(3786 6mAs和非6mAs)、嗜热热菌(107600 6mAs和非6mAs)、链霉菌SUP5–1(3379 6mAs和非6mAs)和Xoc。BLS256(172156MA和非6MA)。所用11个物种的6mA样本主要通过SMRT以单核苷酸分辨率进行测量。序列窗口的长度设置为41 bp,这在之前的6mA预测研究中显示了最高的性能。甲基化腺嘌呤在6mA样本中位于中心位置,而非6mA样本中的甲基化腺嘌呤未经实验证实。每个物种的数据集按1:1的比例分为训练数据和独立测试数据。策划的数据集可以从Lv等人开发的web应用程序下载。

Feature encoding methods

特征编码与预测模型的性能有关。我们通过五种单一编码方法(NCPNF、MNBE、C-NCPNF、C-MNBE和word2vec)和两种组合编码方法将DNA序列转化为特征矩阵

Nucleotide chemical property and nucleotide frequency

NCPNF特征矩阵由每个核苷酸的化学性质和密度生成。DNA序列中第i个核苷酸的化学性质是
由三种不同特征的组合表示(xi,yi,zi), xi, yi 和 zi是环结构、氢键和化学官能团的组合来表示。根据环结构,核苷酸分为嘌呤和嘧啶。就氢键而言,它们是根据形成强氢键还是弱氢键来分类的。就化学功能而言,它们分为氨基和酮基。根据上述分类,每个特征由以下各项表示:
在这里插入图片描述
其中A、T、G和C的化学特征向量分别对应于(1,1,1)、(0,1,0)、(1,0,0)和(0,0,1),第i个核苷酸的密度通过以下公式计算:

在这里插入图片描述
其中,L、 N J N_J NJ和q分别是DNA序列的长度、序列中第i个前缀字符串的长度和相关核苷酸的长度。通过如下排列化学性质和密度,生成第i个核苷酸的特征向量:
在这里插入图片描述
最后,将DNA序列中的特征向量串联起来,每个DNA序列由41×4矩阵表示.

<
  • 2
    点赞
  • 31
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值