论文解读：《PACES：mRNA中N4乙酰胞苷（ac4C）修饰位点的预测》

风灬陌

已于 2022-08-22 13:59:17 修改

阅读量3.7k

点赞数 2

分类专栏：生物信息学 DNA/RNA位点预测机器学习文章标签：算法机器学习生物信息学

于 2020-10-12 17:04:47 首次发布

原文链接：https://www.nature.com/articles/s41598-019-47594-7#Sec2

版权

生物信息学同时被 3 个专栏收录

53 篇文章 36 订阅

订阅专栏

DNA/RNA位点预测

12 篇文章 2 订阅

订阅专栏

机器学习

10 篇文章 3 订阅

订阅专栏

@[TOC](论文解读：《PACES: prediction of N4-acetylcytidine (ac4C) modification sites in mRNA》)

文章链接：https://www.nature.com/articles/s41598-019-47594-7#Sec2
DOI：https://doi.org/10.1038/s41598-019-47594-7
服务器：http://www.rnanut.net/paces/
数据集：http://rnanut.net/paces/dataset.zip

1.文章概括：

N4-乙酰基胞苷（ac4C）是高度保守的RNA修饰，并且是mRNA中描述的第一个乙酰化事件。已经证明mRNA中的ac4C参与了mRNA稳定性，加工和翻译的调控，但是ac4C起作用的确切方式仍不清楚。此外，ac4C以生理相关水平广泛分布在人类转录组内，到目前为止，实验仅检测到一小部分修饰序列。在这项研究中，作者开发了人类mRNA中ac4C位点的预测因子，称为PACES，以帮助挖掘可能的修饰基序。PACES结合了两个随机森林分类器：位置特定的二核苷酸序列图谱（PSDSP）和K核苷酸频率（KNF）。使用基因组序列作为输入，PACES会根据训练模型给出可能的修饰序列。

2.介绍：

随着对转录组的最新研究，已在RNA分子鉴定出160多种不同的修饰。在所有具有调节潜力的修饰中，在胞苷上发生的N4-乙酰胞苷（ac4C）在生命所有域中都是保守的，并且是真核RNA描述的唯一乙酰化事件。ac4C最初在细菌tRNA^met（甲硫氨酸转移RNA）被检测到，随后在其他tRNA和rRNA被检测到。在各种人类细胞中，最近的研究已经在poly（A）RNA中检测到了ac4C，其水平为5’7-甲基鸟苷（m7G）cap，这表明ac4C的mRNA含量很高，并且具有重要的调节功能。
最近，Daniel Arango等人。建立了ac4C在mRNA翻译调控中的作用，并探索了ac4C促进翻译效率的机制。通过分析mRNA的半衰期，他们发现乙酰基化水平与目标mRNA的稳定性呈正相关，当存在摆环胞苷时ac4C增强翻译。类似的机制已经发现用于原核tRNA的满足乙酰化，其中AC4C促进在原核生物解码保真度。此外，ac4C发生在mRNA / tRNA相互作用允许非标准碱基配对的摆动位点，可能支持tRNA识别并促进与同源tRNA的相互作用。
Daniel Arango等人利用名为acRIP-seq高通量测序方法。还描述了ac4C的转录组全图。总体而言，ac4C在编码序列内富集，胞苷在acRIP-seq峰的摆动位点内富集。实际上，对特定基序的分析表明，重复的CXX基序（由两个非专性核苷酸隔开的几个专性胞苷）在ac4C峰中高度富集。尽管实验结果揭示了乙酰化序列的一些特征，但是一些摆动的胞苷密码子被乙酰化而其他的未被掩盖的基础仍然不清楚。在这项研究中，我们建立了一个名为PACES的ac4C位点预测子，以帮助发现更多的乙酰化mRNA序列。
在我们实验室的先前工作中，已经为修饰位点建立了多个预测因子。SRAMP是一种计算预测器，结合了三个随机森林分类器，可以准确识别哺乳动物N6-甲基腺苷（m6A）位点。RNAm5Cfinder是基于机器学习的网络服务器，可以预测RNA中的5-甲基胞嘧啶（m5C）位点。NmSEER还是利用随机森林预测Hela细胞和HEK293细胞中2’-O-甲基化（Nm）位点的预测因子13。在成功使用机器学习方法预测修饰位点的鼓舞下，我们基于RNA序列特征和随机森林机器学习建立了PACES。与上述三个预测变量不同，PACES在主题级别进行预测。PACES结合了位置特异性二核苷酸序列图谱（PSDSP）和K核苷酸频率（KNF）来提取序列特征。PACES在交叉验证测试和独立基准测试中显示出令人鼓舞的性能，我们相信它可以帮助后续对ac4C调节机制的研究。

3.方法

3.1数据集

从先前发布的高通量数据集7提供的2134个基因中提取阳性和阴性样品。我们将CXX的重复数从2更改为9，以查看乙酰化峰内外不同重复CXX图案的分布。在转录组中可能经常观察到简单的重复基序，例如CXXCXX，但我们发现在1629个峰中出现了五个连续的CXX基序，并且在峰外发现了15198个五个连续的CXX基序，因此产生了可接受的正负比（1：10）。因此，作者选择至少五次重复的CXX基序及其相邻序列作为收集样本的标准。我们从每个峰中选取一个主题，如果峰中有多个主题，则选择最接近峰顶的主题。我们将峰内的基元用作正样本，将峰外的基元用作负样本。最后，这些样本分为训练集和测试集。训练集中有1160个阳性样品，10855个阴性样品，测试集中有469个阳性样品，4343个阴性样品。

3.2特征编码

我们尝试了六种功能编码方法，one-hot，PSSNP，PSDSP，KNF，KSNPF，PseKNC。至于one-hot，我们将A，T，G，C转换为二进制向量（0,0,0,1），（0,0,1,0），（0,1,0,0），（1 ，0,0,0）。
PSNSP（位置特定的核苷酸序列图）描述了正和负数据集中每个位点的四个核苷酸的分布：
在这里插入图片描述
其中i是序列的第i个位点，n是该位点的核苷酸类型。N⁺（i，n）和N^-（i，n）代表核苷酸的计数Ñ在发生我分别正样本和负样本在第站点。N p和N n表示阳性样品和阴性样品的数量。编码时，我们将每个位点的核苷酸翻译为f（i，n）的值。
PSDSP（位置特定的二核苷酸序列图）描述了正和负数据集之间每个位点的二核苷酸频率差异。PSDSP的计算也类似于公式1。差异是n代表16个二核苷酸，即AA，AT，AG，AC，TA，TT，TG，TC，GA，GT，GG，GC，CA，CT，CG，CC。通过程序，我们将第i个和（i +1）个位置的核苷酸翻译为f（i，n）的值。
KNF（k核苷酸频率）描述了序列中出现k个核苷酸的所有可能多核苷酸的频率。当k设置为等于2、3和4时，该序列由二核苷酸组成表示：
在这里插入图片描述
其中f（AA）是序列中AA的出现频率。计算所有二核苷酸，三核苷酸和四核苷酸的频率并将其合并为一个向量。通过过程，我们将序列翻译为长度为336（16 + 64 + 256 = 336）的向量。
KSNPF（k个隔开的核苷酸对频率）描述了被序列中出现的k个任意核苷酸分隔开的16个核苷酸对的频率。我们将k设置为0、1、2、3和4，则该序列将转换为：
在这里插入图片描述
其中X是任意核苷酸，AXA代表两个由任意核苷酸分隔的腺苷。f（AXA）表示序列中AXA的出现频率。计算所有核苷酸对的频率，并将序列编码为长度为80（16×5 = 80）的向量。
PseKNC（伪k元组核苷酸组成）结合了k核苷酸组成的频率和理化特性。PseKNC具有各种参数以生成不同的模式，并且数学方程式复杂。因此，我们使用了PseKNC的可用软件包为每个样本生成PseKNC编码特征向量。至于用于PseKNC的参数，通过网格搜索对参数组合进行了初步扫描，发现它们的性能只有很小的差异（补充图 S2）。通过比较，最终将权重因子设置为0.3，λ参数设置为1，并考虑了RNA二核苷酸的所有11种理化特性。
在这里插入图片描述补充图S2。表面图显示不同参数组合的PseKNC编码性能的变化。通过网格搜索，预测性能具有不同组合的两个核心参数(即。对PseKNC编码的λ和权重进行了测试和比较。预测性能被评估为在相应的λ和权重组合下的ROC曲线下的面积。

3.3随机森林分类器训练和优化

步伐预测器集成了2个随机森林分类和作者使用sklearn包名为RandomForestClassifier随机森林包在Python。当使用训练数据集进行5倍交叉验证测试时，将训练样本分为五个相等的部分（每个样本有232个阳性样本和2171个阴性样本）。依次将这五组中的一组作为测试集，并将其他四组合并为训练集。经过五次培训，将五个测试集的结果合并以进行性能评估。然后，根据交叉验证的性能优化了两个参数窗口大小和树数n_estimators。将步长为6的窗口大小从0更改为198，将步长为100的树编号从100更改为900。基于这六种方法的性能，我们最终将树数设置为800，窗口大小设置为one-hot126，PSSNP 144，PSDSP 138，KNF 150，KSNPF 144和PseKNC 138。

4.结果：

4.1预测器建立

使用的数据集摘自最近发表的文章7。本实验鉴定了2135个ac4C峰，并提供了它们的基因ID和峰的位置。我们使用重复的CXX基序从这些ac4C序列中提取阳性样本和阴性样本，用于后续的机器学习(方法)。经过优化，最终选择了至少5个连续的CXX重复序列和相邻的序列作为样本基序，构建了正负样本比接近10：1的数据集。这些样本按接近2.5：1的比例分为训练集和测试集。正负样本之间可能影响序列乙酰化的差异尚不清楚。特定位置的单核苷酸、二核苷酸或k-核苷酸、核苷酸组成和核苷酸的物理化学性质都是可能的因素。因此，我们尝试了多种方法提取样本的序列特征，形成特征向量作为随机森林分类器的输入。
曾尝试用于构建序列特征（方法），六种不同的方法：one-hot，位置特异性核苷酸序列简档（PSNSP），位置特异性二核苷酸序列轮廓（PSDSP），K-核苷酸频率（ KNF），K-间隔核苷酸对频率（KSNPF）和伪K-元组核苷酸组合物（PseKNC）。one-hot是二进制编码，它将四个核苷酸A，T，C或G转换为1到4的二进制数。one-hot精确地描述了样本序列每个位置的核苷酸类型。PSNSP将每个位置的核苷酸翻译成分别出现在阳性和阴性样品集中该位置的核苷酸频率之间的差异。它描绘了包含整个数据集信息的每个位置的核苷酸概况。PSDSP与PSNSP相似，它描述了每个位置的二核苷酸频率差异。KNF计算所有可能的k核苷酸组成的频率并描述序列背景。KSNPF计算被k个任意核苷酸分隔的所有可能的核苷酸对的频率，并描述序列上下文。
对于每种编码方法，在将训练样本序列转换为数字特征向量之后，使用由这些向量组成的矩阵来训练随机森林分类器。评估这些分类的性能与ROC曲线下的假阳性率（FPR），真阳性率（TPR）和面积（AUROC）的5倍交叉验证测试。当关注auROC时，尽管差异很小，但PSDSP显然更好（auROC = 0.8674）。根据auROC（图1），所有六个分类器均表现良好，表明序列携带的某些信息可使预测变量区分未乙酰化样品中的乙酰化基序。
在这里插入图片描述

4.2参数优化和独立测试

分类器的性能可能会受到几个参数的影响，在训练分类器的过程中，作者专注于窗口大小W和n_estimators（树数）N。对于每种编码方法，通过5倍交叉优化了这两个参数-验证测试（方法）。通常，窗口大小超过100个核苷酸后auROC逐渐收敛（补充图 S1）。基于所有六种方法的性能，分别针对单热点选择了最佳窗口大小，对于one-hot为126，对于PSNSP为144，对于PSDSP为138，对于KNF为150，对于KSNPF为144，对于PseKNC编码为138。同样，n_estimators初步优化为800。其他参数对性能的影响不大，将其保留为默认值。
六种编码不同窗口大小的预测性能的增长。预测性能被评估为ROC曲线下的面积(AuROC)在相应的窗口大小。

在优化了每个分类器之后，通过加权和方案将它们的预测结果线性地组合在一起，以创建一个比任何一种方法都有更好表现的元分类器。作者仍然使用5倍交叉验证测试来找到更好的分类器组合和更好的分类器权重。在单分类器中，PSDSP表现最佳（auROC = 0.8674），其次是KNF（auROC = 0.8618）和PseKNC（auROC = 0.8401）（图 1A）。作者按照auROC值的顺序组合这些单个分类器，直到组合分类器在5倍交叉验证中的性能不再变得更好为止。结果表明，当与KNF（auROC = 0.8851）结合使用时，元分类器的性能要优于单个PSDSP分类器，但是继续添加one-hot和PseKNC并不能使分类器显着改善（auROC = 0.8855，图 2A）。最终，通过结合分别用PSDSP和KNF编码训练的随机森林分类器来建立元预测器。
不同分类器及其组合的性能。（A）ROC曲线显示了交叉验证中不同分类器组合的性能。（B）精确召回曲线，显示了交叉验证中不同分类器组合的性能。（C）ROC曲线显示了独立测试中分类器和两个单个分类器不同组合的性能。（D）精确召回曲线显示了分类器和两个单个分类器的不同组合在独立测试中的性能。

为了合理地评估此组合分类器，作者在独立的测试数据集中对其进行了测试，并将其与单个PSDSP和KNF分类器进行了比较（图 2C）。独立测试的结果与交叉验证测试的结果一致。auROC达到0.8741的组合分类器明显优于两个单个分类器（auROC分别为0.8493和0.8502）。而且，在交叉验证测试和独立测试中，它还基于另一个指标（在精确召回曲线下的面积）显示出良好的性能。精确调用曲线对数据集中正负样本的分布很敏感。精确调用曲线下的两个面积（auPRC = 0.4852，图 2D）和组合分类器的BEP（突发事件点）大于其他两个分类器（分别为0.4666和0.4167）。因此，我们将组合分类器用作预测变量。

4.3PACES服务器

为了进一步方便社区，作者构建了一个在线服务器PACES。PACES是一种用户友好的Web服务器，允许用户查询他们提供的序列的可能的乙酰化基序。PACES的预测网页如图3A所示。。用户应输入查询的RNA或cDNA序列并选择所需的特异性。提交一次允许最多50个序列，决定分类器阈值的特异性为用户提供了四种选择：99％，95％，90％和85％。特异性的默认选项是99％。提交查询序列后，根据用户提交的序列数量，处理过程可能需要几秒钟。然后，用户将被重定向到结果网页，其中仅显示包含可能的乙酰化基序的查询序列。图 3B是使用示例序列（UCSC ID：uc001aci.2）作为输入的结果网页的屏幕截图。列出查询序列中所有可能的乙酰化序列及其ID。如果有重叠的基序（超过五个连续的CXX重复序列），则计算预测分数，并比较重叠的基序中每五个连续的CXX基序，并仅显示得分最高的CXX基序。序列中可能的乙酰化基序标记为红色，并给出了它们的起始和终止位点。另外，显示了预测值给每个所示序列的分数，以进行比较。
在这里插入图片描述 PACES服务器。（A）PACES的预测网页。（B）PACES的结果网页。

5.讨论区

mRNA的乙酰化似乎在mRNA的稳定性和翻译中起着重要的作用，乙酰化的机理和乙酰化事件的准确位点尚不清楚。我们上面介绍的PACES服务器是mRNA中乙酰化位点的基于序列的预测子。它基于实验的乙酰化数据集构建，可以预测查询序列是否具有可能的乙酰化基序。预测变量显示出有希望的预测性能，独立测试的auROC达到0.8741。
尽管如此，仍然存在一些限制。首先，PACES只能预测可能发生乙酰化的基序，而不能预测乙酰化的确切位置。这是由于检测ac4C乙酰化的高通量实验的分辨率有限，从中只能获得100〜300 nt的乙酰化峰。ac4C乙酰化基序附近选择了过度代表的CXX基元作为ac4C乙酰基化基序，但不能保证每个基峰在该基序上都应发生乙酰化（例如，一个峰中可能有多个ac4C位点）。其次，重复的CXX基序仍然是模棱两可的，而ac4C乙酰化的确切形式，如m6A的DRACH基序，则需要进一步的实验研究。第三，由于可用数据的限制，PACES无法执行跨组织或跨物种的预测。因此，为了提高预测器的准确性，必须进行更高分辨率的实验测量。
另外，在训练随机森林分类器时，作者注意了特征的重要性。在PSDSP分类器中，最接近CXX基序的四个核苷酸位置在特征重要性排名中排名前四，这表明局部序列偏好确实会影响乙酰化基序的选择。但是它们的重要性评分与其他特征没有显着差异，表明远端核苷酸位置也可能有助于乙酰化特异性。在KNF分类器的336个特征中，前五个是包含GG的k核苷酸的频率（GG，GGG，GGGG，GGAG，GGA），表明富含G的上下文有利于ac4C乙酰化。此结果是否真正反映了ac4C基序选择的性质，还需要进一步的实验研究。

风灬陌

关注

2
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
论文解读：《PACES：mRNA中N4乙酰胞苷（ac4C）修饰位点的预测》

Ac4C是高度保守的RNA修饰，并且是mRNA中描述的第一个乙酰化事件。已经证明mRNA中的ac4C参与了mRNA稳定性，加工和翻译的调控，但是ac4C起作用的确切方式仍不清楚。此外，ac4C以生理相关水平广泛分布在人类转录组内，到目前为止，实验仅检测到一小部分修饰序列。在这项研究中，作者开发了人类mRNA中ac4C位点的预测因子，称为PACES，以帮助挖掘可能的修饰基序。PACES结合了两个随机森林分类器：PSDSP和KNF。使用基因组序列作为输入，PACES会根据训练模型给出可能的修饰。
复制链接

扫一扫