论文解读：《PredNTS：通过整合多个序列特征来改进和稳健地预测硝基酪氨酸位点》

论文解读：《PredNTS: Improved and Robust Prediction of Nitrotyrosine Sites by Integrating Multiple Sequence Features》

1.文章概述
2.背景
3.数据
4.方法
5.结果
6.结论

文章地址：https://www.mdpi.com/1422-0067/22/5/2704
DOI：https://doi.org/10.3390/ijms22052704
期刊：International Journal of Molecular Sciences
2021年影响因子/JCR分区：6.208/Q2
发布时间：2021 年 3 月 8 日
Web在线服务器：http://kurata14.bio.kyutech.ac.jp/PredNTS/
补充文件：https://www.mdpi.com/1422-0067/22/5/2704/s1

1.文章概述

由多种活性氮物质产生的硝基酪氨酸是一种蛋白质翻译后修饰。识别酪氨酸位点特异性硝化修饰是了解硝化蛋白分子功能的先决条件。由于机器学习的进步，计算预测可以在生物实验之前发挥至关重要的作用。作者通过整合多个序列特征（包括 K-mer、k 间隔氨基酸对的组成 (CKSAAP)、AAindex 和二进制编码方案）开发了一种计算预测器 PredNTS。使用随机森林分类器通过递归特征消除方法选择重要特征。最后，线性组合了不同使用单一编码的 RF 模型生成的连续随机森林 (RF) 概率分数。由此产生的 PredNTS 预测器在五折交叉验证中AUC = 0.910。它在全面和独立的数据集上优于现有的预测器。此外，作者还研究了几种机器学习算法，以证明所采用的 RF 算法的优越性。最后开发了一个web在线服务预测器。

2.背景

由多种活性氮物质产生的硝基酪氨酸是一种蛋白质翻译后修饰。它发生在酪氨酸被活性氮物质 (RNS) 硝化时，例如过氧亚硝酸根阴离子 (ONOO-)，通过一氧化氮 (NO-) 和超氧化物 (O2-) 的快速反应在体内进行。蛋白质的硝化会改变它们的化学性质。在包括糖尿病、癌症、神经退行性疾病、哮喘和衰老在内的许多疾病的炎症过程中观察到过量的过氧亚硝酸根阴离子。
酪氨酸硝化发生在蛋白质相互作用区域，如酶-底物或受体-配体复合物，并带来多种影响，如降低酪氨酸酚环的电子强度，并对它们的相互作用产生负面影响。它修饰酶和受体，降低它们的生物活性。此外，酪氨酸硝化可能直接干扰负责细胞信号通路的酪氨酸残基的磷酸化。因此，通过识别酪氨酸的位点特异性硝化修饰，可以获得开发新治疗策略和药物的潜在指导。
为了揭示硝基蛋白的机制和功能，识别潜在的硝基酪氨酸位点是必不可少的。迄今为止，已经进行了大规模的蛋白质组学研究，以根据硝基酪氨酸位点的分子特征来鉴定硝化蛋白质。尽管经过实验验证的硝基酪氨酸位点的数量正在增加，但酪氨酸位点特异性硝化修饰的机制仍然很大程度上未知，可能是由于技术测量限制。传统的实验方法可以深入了解硝基酪氨酸位点的生物学作用，但它们非常耗时且昂贵。因此，作为一种替代策略，可以提出一种计算机方法来预测硝基酪氨酸位点，由于其效率和便利性，该方法适用于所有蛋白质组注释。
在这里插入图片描述
到目前为止，只有少数预测因子被提出来识别硝基酪氨酸位点。从之前的研究结果可知，之前的预测器使用训练数据集并通过五折交叉验证 (CV) 测试获得良好的性能。在这项研究中，作者通过整合 K-mer、k 间隔氨基酸对的组成 (CKSAAP)、AAindex 和二进制多个序列特征来开发了一种计算预测器：PredNTS。 PredNTS 的工作流程如图 1 所示。作者实现了递归特征消除 ( recursive feature elimination，RFE)，以通过随机森林 (RF) 分类器选择重要特征。最后，将连续的 RF 分数与线性回归模型相结合。开发了一个用户友好的网络服务器。

3.数据

从不同的公共来源收集了数据集，包括 DeepNitro 和 iNitro-Tyr。实验鉴定的硝基酪氨酸位点（“Y”，酪氨酸残基）被认为是正样本，而其余的 Y 残基被认为是负样本。它包含 796 种硝基酪氨酸蛋白和 1406 个经过实验验证的硝基酪氨酸位点。准备长度为2w+1的序列窗口，以将硝基酪氨酸置于中心。作者通过 CD-HIT 的 40% 水平阈值来删除冗余序列。最后，随机选择20%的样本（203个正样本和1022个负样本）作为独立数据集来检验模型强度。从整个剩余的数据集中，汇集了正负样本（1191 个正样本和 1191 个负样本）的 1:1 比率作为训练模型，以避免可能的偏差预测。独立的（203 个正样本和 1022 个负样本）数据集用于将提出的 PredNTS 模型与现有预测器进行比较。

4.方法

4.1 序列编码

二进制
二进制氨基酸编码方案用于编码来自序列窗口的位置信息。在这里，通过采用二进制编码，将 41 个氨基酸序列，包括以 (-) 表示的间隙，转换为 41×21=861 维的特征向量。
氨基酸的理化性质
氨基酸的理化性质已从 AAindex 数据库 24（版本 9.1）中提取。在这里，作者使用了 15 种 AAindex 属性来生成一个 41×15=615维的向量。
k间隔氨基酸对（CKSAAP）
k间隔氨基酸对（CKSAAP）编码的组成是窗口中k间隔残基对的组成，广泛用于蛋白质生物信息学领域。在该方案中，k 代表两个氨基酸的间隙长度。例如，k = 0 提供 400 个氨基酸残基对（即 AA、AC、AD、…、YY）。在 k = 0、1、2、3 和 4 时，它会生成一个 400×5=2000 维的特征向量。
K-mer
K-mer 编码广泛用于基因组学和生物信息学领域。使用 K-mer 来最小化任意起点的影响。 K-mer 在 K = 1 时将单肽编码为 20 维特征向量。类似地，在 K = 2 和 3 时，它编码二肽和三肽，从而生成 20+20×20+20×20×20=8420 维特征向量。

4.2 特征选择

作者将 RFE 视为一种特征选择方法，用于从数据集中移除非必要特征。这种方法被归类为包装方法，它从为整个数据集构建学习模型开始。计算了每个预测变量的重要分数，并从当前特征集中修剪了最不重要的特征。重复该过程，直到最佳性能特征的数量收敛。

4.3 机器学习算法

RF 是一个有监督的集成机器学习分类器，它结合了多个基于树的表示来创建一个更强大和可解释的模型。它广泛用于蛋白质生物信息学研究。它表现为大量不相关的决策树，并通过投票来决定整个树的最终分类。此外，还将 RF 算法与朴素贝叶斯 (NB) 和 k 近邻 (KNN) 算法进行了比较。

5.结果

5.1 序列倾向分析

在这里插入图片描述
作者使用图形序列徽标将精选的阳性和阴性样品可视化，以检查硝基酪氨酸蛋白周围氨基酸残基的显着倾向，如图 2 所示。在正负样本之间检测到氨基酸序列的一些显着差异样品。发现 K、R 和 E 等带电残基经常出现在富集位置，而 Y、S、F 和 L 经常出现在耗尽部分。然而，在耗尽部分，在-16、+3 和+13 的位置没有发现堆积的残留物。上述对正负样本之间氨基酸残基倾向的分析表明，基于频率的编码与位置特异性编码的组合在设计硝基酪氨酸位点方面是有效的。

5.2 在训练数据集上使用单一编码采用的模型

使用四种编码方案（AAIndex、二进制、CKSAAP 和 K-mer）来生成数字特征向量。对于所有编码方案，窗口大小设置为 41 (-/+20)。通过RF分类器使用五倍CV测量预测性能。表 1 总结了没有任何特征选择的四个使用单一编码的 RF 模型的平均性能。
在这里插入图片描述
请注意，高维特征可能包含影响精度降低的不相关或冗余属性。为了区分每个特征的相对贡献和重要性，考虑了 RFE 方法。每种编码选择不同的特征子集，以 50 的间隔控制从前 50 到全部的高排名特征。精选的子集特征分别输入到 RF，并使用 5 倍 CV 估计它们的单个性能。这种方法选择了 400维的AAindex、300维的二进制、200维的CKSAAP 和 500维的K-mer。然后，通过对训练数据集的五倍 CV 测试测量了 Sp、Sn、Ac 和 MCC 的四个统计量度，如表 2 所示。RFE 的使用提高了模型的性能。在有特征选择的模型中，Acc 比没有任何特征选择的模型高约 2% 到 4%。图 3A 显示了在训练数据集上进行特征选择的四个单一编码使用模型的 ROC 曲线。 CKSAAP 和 K-mer 编码提供了比其他两种编码方案更好的预测。 CKSAAP 和 K-mer 编码分别实现了 0.900 和 0.895 的 AUC，而二进制和 AAindex 编码分别提供了 0.773 和 0.771 的 AUC。特征选择提高了所有编码方案（二进制、AAindex、CKSAAP 和 K-mer）的性能。
在这里插入图片描述

5.3 在独立数据集上使用单一编码采用的模型

使用一个独立的数据集来研究训练模型的稳健性。没有任何特征选择的模型和有特征选择的模型的性能在独立数据集上进行了评估，分别如表 3 和表 4 所示。 RFE 的使用提高了硝基酪氨酸位点的预测性能。如图 3B 所示，CKSAAP 和 K-mer 编码分别实现了 0.833 和 0.857 的 AUC，而二进制和 AAindex 编码分别提供了 0.720 和 0.750 的 AUC。 CKSAAP 和 K-mer 编码的性能优于二进制和 AAindex 编码。
在这里插入图片描述

5.4 PredNTS 的预测性能

为了构建 PredNTS，作者线性组合了四种使用单一编码的 RF 模型生成的概率分数。将二进制、AAindex、CKSAAP 和 K-mer 编码的权重系数分别优化为 0.01、0.01、0.3 和 0.68。如表 5 所示，PredNTS 在训练数据集上通过 5 倍 CV 实现了 0.910 的 AUC，而在独立数据集上实现了 0.860 的 AUC。四种编码方案的融合极大地提高了预测性能。为了验证 PredNTS 使用的 RF 的优越性，将其与朴素贝叶斯 (NB) 和 k 近邻 (KNN) 两种机器学习算法进行了比较。在这里，采用了相同数量的选择特征和相同的窗口大小 41。分别比较了没有和有特征选择的组合模型的三种机器学习算法的性能，如图 4A、B 所示。 PreDNT的AUC比实施组合模型的 NB 和 KNN 的 AUC 高3-6%，RF的性能优于 NB 和 KNN ，证明了 RF 的优越性。
在这里插入图片描述

5.5 PredNTS 与其他现有预测器的比较

作者将 PredNTS 预测器与三个现有预测器进行了比较：GPS-YNO2、DeepNitro 和 NTyroSite。使用具有 203 个阳性样本和 1022 个阴性样本的独立数据集进行比较。将精选的独立数据集提交到 GPS-YNO2、DeepNitro 和 NTyroSite 在线服务器，然后通过四个统计指标（Sn、Sp、Acc 和 MCC）评估性能。如表 6 所示，所提出方法的预测器在 Sn、Sp、Ac 和 MCC 方面表现出比 GPS-YNO、DeepNitro 和 NTyroSite 预测器更好的性能。 PredNTS 的 Sn 为 0.522，Sp 为 0.809，Acc 为 0.761，MCC 为 0.286。 PredNTS 的 MCC 显着高于其他预测因子。这可能是由于 GPS-YNO2 没有使用任何独立的数据集来评估其鲁棒性，并且 DeepNitro 和 NTyroSite 没有集成它们的编码方案。
在这里插入图片描述