论文解读:《使用非深度与深度学习方法识别mRNA中的N4乙酰胞苷 (ac4C)》

文章地址:https://www.mdpi.com/2076-3417/12/3/1344/htm
DOI:https://doi.org/10.3390/app12031344
期刊:Applied Sciences
2021年影响因子/JCR分区:2.838/三区
发布时间:2022 年 1 月 27 日

1.文章概述

深度学习模型已成功应用于广泛的领域。用于分析高性能序列数据的深度学习框架的创建激起了研究界的兴趣。 N4乙酰胞苷(ac4C)是mRNA的一种转录后修饰,是mRNA的一种成分,在mRNA的稳定性控制和翻译中起重要作用。 mRNA 变化的 ac4C 方法对于传统的实验室实验来说仍然不简单、耗时或具有成本效益。因此,作者开发了 DL-ac4C,这是一种基于 CNN 的用于 ac4C 识别的深度学习模型。在替代方案中,模型系列非常适合在具有大量可用样本的大型数据集中工作,尤其是在生物领域。在这项研究中,DL-ac4C 方法(深度学习)与非深度学习(机器学习)方法中的回归和支持向量机进行了比较。结果表明,DL-ac4C 比以前使用的方法更先进。对于交叉验证和独立测试,所提出的模型分别将准确率召回区域提高了 9.6% 和 9.8%。需要更细致入微的方法将先验生物知识纳入深度学习模型的估计过程,以在预测效率和成本效益方面取得更好的结果。基于实验的乙酰化数据集,基于 DL-ac4C 序列的 mRNA 乙酰化位点预测器可以预测查询序列是否具有潜在的乙酰化基序。

2.背景

Ac4C(N4-乙酰胞苷)通常被认为是在 tRNA 和 rRNA 上发现的一种保守的化学修饰核苷。最近的研究揭示了人类和酵母 mRNA 中广泛的 ac4C 修饰。 Ac4C 有助于在翻译过程中正确读取密码子,提高翻译效率和 mRNA 稳定性。目前,ac4C 研究采用了多种检测方法。 Ac4C 合成与 N 乙酰转移酶 10 (NAT10) 及其辅助酶有关,例如 tRNA ac4C 的推定 tRNA 乙酰转移酶 (TAN1) 和 rRNA-ac4C 的小核仁 RNA (snoRNA)。 Ac4C 还与许多人类疾病的发病、进展和预后有关。
本文介绍了一个基于深度学习ac4C的ac4C站点变化理论模型。使用核苷酸化学性质 (NCP)、核苷酸密度 (DN)、k-mer、One-hot和伪电子-离子相互作用特征,作用于基准数据集中包含的数据集中。 DL-ac4C 使用多种参数计算,包括精度、灵敏度和特异性,所有这些参数在生物信息学领域都很常用。 DL-ac4C 控制使用测量参数的交叉验证。此外,接收者操作曲线 (ROC) 和召回曲线 (PRC) 的数据集不均匀。因此,ROC 和 PRC 用于选择最佳向量表示和深度学习分类。在本文中,作者提出了一种计算机模型,该模型专注于评估 mRNA DL-ac4C 位点的深度学习方法;作者将所提出的模型与非深度学习模型、回归、SVM 和 BMAML 进行比较,发现我们的模型更好地预测了人类 mRNA 中的 ac4C 位点。

3.数据

实验数据集从PACES网站下载,最初的数据收集自文献中的2134个基因,然后对搜集到的数据进行预处理,数据处理过程简述如下:首先在搜集的2134个基因中提取了所有五个连续重复的CXX基序,发现提取后的序列中有1629个基序位于乙酰化峰内,有15198个基序位于乙酰化峰外,位于峰内的基序被视为正样本,峰外的基序被视为负样本。然后对得到的正负样本进行划分,最终训练集和测试集中的正样本的数量分别为1160和469,负样本的数量分别为10855和4343。

4.方法

DL-ac4C模型参数:N_estimator: 1200, study_rate: 0.01, mini_child_weight: 5, maximum_depths: 5, gamma: 5, subsample: 0.8。

4.1 特征编码

  1. One-hot
    A:[1, 0, 0, 0]
    C:[0, 1, 0, 0]
    G:[0, 0, 1, 0]
    T:[0, 0, 0, 1]
  2. 核苷酸化学性质(Nucleotide chemical property, NCP)和核苷酸密度(Nucleotide density, ND)
    ![![在这里插入图片描述](https://img-blog.csdnimg.cn/adc3cb87796b458d8fb7213230bb7737.png#pic_center)
  3. K-mer
    本文K分别取1, 2, 3,所以每个序列被编码成:4+16+64 = 84 的长度
  4. PseEIIP + EIP
    在这里插入图片描述

4.2 所使用的方法

(1)回归(Regression)
(2)支持向量机(support vector machines, SVM)
(3)贝叶斯MAML(Bayesian MAML,BMAML)
(4)DL-ac4C模型
模型结构
在这里插入图片描述
模型层架构和输出层维度
在这里插入图片描述

5.结果

5.1 不同模型的预测精度

在这里插入图片描述

5.2 多个特征的结果

在这里插入图片描述

5.3 交叉验证、独立测试的ROC和PRC

图3(a)交叉验证的ROC,(b)交叉验证的PRC,(c)独立测试的ROC,(d)独立测试的PRC。
在这里插入图片描述

5.4 损失函数和精度

在这里插入图片描述

5.5 与前人方法比较

在这里插入图片描述

5.6 所提出方法交叉验证和独立测试的混淆矩阵

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值