论文解读:《提高N7-甲基鸟苷(m7G)位点预测性能的迭代特征表示方法》

文章链接:https://academic.oup.com/bib/article-abstract/22/4/bbaa278/5964186
DOI:https://doi.org/10.1093/bib/bbaa278
期刊:Briefings in Bioinformatics(一区)
影响因子:11.622
发布时间:2021 年 7 月
数据:http://server.malab.cn/m7G-IFL/Download.html
服务器:http://server.malab.cn/m7G-IFL/

1.文章概述

N7-甲基鸟苷 (m7G) 是一种重要的表观遗传修饰,在基因表达调控中发挥着重要作用。尽管高通量实验方法能够精确定位 m7G 位点,但它们仍然成本效益低。
作者通过使用迭代特征表示算法,开发了一种基于机器学习的方法:m7G-IFL,用于识别 m7G 位点。对 m7G-IFL 进行了评估并与现有的预测方法进行了比较。结果表明,m7G-IFL方法在识别 m7G 位点的准确性方面优于现有的预测方法。通过分析和比较预测方法中使用的特征,作者发现特征空间中的正负样本比现有特征空间中的分离度更高。这个结果表明特征通过迭代特征学习过程提取了更多的判别信息,从而有助于预测性能的提高。

2.背景

m7G RNA甲基化是在甲基化转移酶的作用下,使RNA鸟嘌呤(G)的第七位N上加上甲基的一种修饰(N7-methylguanosine,m7G)。研究表明,m7G RNA甲基化修饰存在于各类分子中,包括:mRNA 5’帽子结构、mRNA内部、pri-miRNA、转运RNA(tRNA)和核糖体RNA(rRNA)。m7G RNA甲基化修饰能够调节mRNA的转录、miRNA的生物合成和生物学功能、tRNA稳定性、18S rRNA的核内加工及成熟。m7G RNA甲基化修饰作为一类新型RNA甲基化,近两年高影响因子文章不断,是继m6A修饰之后的又一表观转录组学热点。
在这项研究中,作者提出了 m7G-IFL,这是一种用于识别 m7G 位点的新计算预测方法。在这个预测方法中,作者引入了一种用于RNA序列编码的迭代特征表示算法,该算法可以从不同的序列模型中自动学习概率分布信息,并以有监督的迭代方式提高特征表示能力。作者评估并比较了我们的预测方法与现有的预测方法。通过特征分析,作者发现所提出的迭代特征算法可以增强迭代过程中的特征表示能力。还开发了Web服务器:http://server.malab.cn/m7G-IFL/

3.数据

使用的数据集包括 741 个阳性样本和 741 个阴性样本。该数据集中的阳性样本是真正的 m7G 位点,包含长度为 41 nt(核苷酸)的序列,这些序列经过实验验证并源自人类 HeLa 和 HepG2 细胞。阴性样本是非 m7G 站点包含的序列,与正样本的长度相同。在正负数据集中,序列同一性均小于 80% 。

4.方法

在这里插入图片描述
m7G-IFL主要包括三个步骤:数据预处理、特征提取和迭代特征表示。

  1. 将查询序列分成相同长度的41nt的子序列。
  2. 生成的序列用于特征提取。使用了三种特征提取算法,包括物理化学性质 (PCP)、环函数氢化学性质 (RFH) 和累积核苷酸频率(ANF)以及二进制和k-mer 频率 (BKF)。每个序列被转换为三种类型的特征向量,每一种都通过基于 F-score 和顺序前向搜索 (SFS) 的集成的特征选择策略进一步优化。对于每个子序列,使用三个最优特征向量预测它的为真 m7G 位点,并分别获得三个概率值,进一步组合为 3D 概率特征向量。
  3. 将得到的概率特征向量进一步输入到迭代特征学习策略中,以学习序列的最佳概率特征向量。最后,每个序列得到一个从0到1不等的分数。如果分数大于0.5,则该序列被预测为m7G位点;否则,它是一个非 m7G 站点。

4.1 特征提取

4.1.1 理化特性 (PCP)

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

4.1.2 环功能氢特性 (RFH)和累积核苷酸频率(ANF)

环功能氢特性 (RFH):
A:(1,1,1)
C:(0,1,0)
G:(1,0,0)
U:(0,0,1)

累积核苷酸频率(ANF):
单核苷酸频率

4.1.3 二进制和 k-mer 频率 (BKF)

二进制:
A:(0,0,0,1)
C:(0,1,0,0)
G:(1,0,0,0)
U:(0,0,1,0)

K-mer频率:使用与位置无关的 k-mer 频率来捕获全局序列信息,作者考虑 k= 2,3,4,有 336 (42+43+44) 个 k-mer 特征。

4.2 迭代特征表示学习

4.2.1 每种特征进行特征优化

使用两步策略分别优化从三种特征表示方法导出的特征空间。

1.计算F-score以降序排列原始特征。
2.使用 SFS 确定最佳特征子集。在 SFS 中,根据它们的F-score依次添加特征并训练相应的模型。当对应模型在10折交叉验证下达到了最高准确率,特征子集被认为是最好的。

4.2.2 带监督的概率特征生成

从上面的步骤中,获得了三个不同特征组的最佳模型。每个模型都会为数据集中的每个样本生成一个概率分数,以衡量预测概率,无论它是否是 m7G 站点。为了避免单一特征类型的概率,作者结合了从三个模型得出的所有概率,并为每个样本生成一个 3D概率特征向量。

4.2.3 迭代特征生成

1.使用步骤 2 中生成的 3D向量训练 XGBoost 模型,然后在评估 XGBoost 模型后获得概率特征。将新特征与之前的 3D 向量结合,得到一个新的 5D 特征向量。
2.再次重复这个过程,即在随后的每次迭代中训练多维输入特征以获得二维概率特征,然后将输入和输出特征合并到输入特征中以用于下一次迭代。如果性能达到收敛,则停止迭代过程。

5.结果

5.1 不同分类器的性能比较

在这里插入图片描述
在这里插入图片描述

5.2 迭代特征学习提升特征表示能力

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

5.3 与现有预测器的性能比较

在这里插入图片描述
在这里插入图片描述

6.总结

在这项研究中,我们提出了一种称为 m7G-IFL 的计算方法来改进 m7G 站点的识别。
在m7G-IFL中,作者引入了一种迭代特征表示算法来编码RNA序列,该算法可以从多个序列模型中自动学习概率分布信息,并以监督迭代的方式提高特征表示能力。
比较研究表明,提议的m7G-IFL 显着优于现有的用于识别m7G 位置的预测器。
作者进一步开发了一个网络服务器,用于实施提议的m7G-IFL,它可以在基因组规模上提供对m7G 位点的高通量预测。它可在http://server.malab.cn/m7GIFL/ 上公开访问。

  • 0
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值