论文解读:《GPApred:第一个使用基于序列的最佳特征识别具有 LPXTG 样motif蛋白质的计算预测器》

文章地址:https://www.sciencedirect.com/science/article/pii/S0141813022032366
DOI:https://doi.org/10.1016/j.ijbiomac.2022.12.315
期刊:International Journal of Biological Macromolecules
2022年影响因子/分区:8.2/一区
发布时间:2022年12月31日
Web:https://procarb.org/gpapred/

1.文章概述

革兰氏阳性菌的细胞表面蛋白参与许多重要的生物学功能,包括宿主细胞的感染。由于它们的毒性,这些蛋白质也被认为是潜在药物或疫苗靶点的有力候选者。在革兰氏阳性菌的各种细胞表面蛋白中,LPXTG 样蛋白是一个主要类别。这些蛋白质具有高度保守的 C 端细胞壁分选信号,由 LPXTG 序列motif、疏水结构域和带正电荷的尾部组成。这些表面蛋白通过转肽作用被分选酶靶向细胞被膜。多种 LPXTG 样蛋白已通过实验得到表征;然而,由于广泛的细菌基因组测序没有适当的注释,公共数据库中的细菌数量有所增加。在缺乏实验表征的情况下,识别和注释这些序列极具挑战性。因此,在这项研究中,我们开发了第一个基于机器学习的预测器,称为: GPApred,它可以从一级序列中识别 LPXTG 样蛋白。使用新构建的基准数据集,我们探索了不同的分类器和五种特征编码及其混合。使用递归特征消除方法导出最佳特征,然后使用支持向量机算法训练这些特征。使用独立数据集评估不同模型的性能,并根据交叉验证和独立评估期间的一致性选择最终模型(GPAPred)。 GPApred 可以成为预测 LPXTG 样序列的有效工具,并可进一步用于功能表征或药物靶向。

2.背景

革兰氏阳性菌的表面蛋白在其与环境的相互作用中发挥着重要作用,促进宿主细胞入侵、免疫反应逃避和粘附感染部位等活动。除了在人类细胞粘附中发挥重要作用外,此类表面蛋白还在水产养殖中具有重要意义的生物体内的细菌中被发现,它们还可以用作药物或疫苗的靶标。许多这些表面蛋白被认为是毒力因子,因为它们在感染宿主细胞中发挥着不可或缺的作用。革兰氏阳性细菌的细胞壁锚定表面蛋白表现出巨大的结构和功能多样性。然而,它们都具有保守的 C 末端区域,其中包含 LPXTG(其中 X = 任何氨基酸)序列motif,这对于附着到细胞壁包膜至关重要 。 C 端区域的 LPXTG 序列motif后面是一个疏水结构域和一个短的带正电荷的尾部。这三个区域共同形成细胞壁分选信号 (cell wall sorting signal,CWSS) ,并且存在于革兰氏阳性细菌的所有细胞壁锚定表面蛋白中。含有 CWSS 结构域的表面蛋白是膜相关转肽酶(称为分选酶)的靶标,分选酶负责将这些 LPXTG 样蛋白共价附着到细菌细胞壁上。
分选酶在苏氨酸 (Thr) 和甘氨酸 (Gly) 氨基酸之间裂解其底物的 LPXTG 序列motif,并通过硫酯与底物形成酰基酶中间体结合。然后CWSS的疏水区域穿过质膜,与带电尾部结合,两者构成停止转移信号。这些步骤最终导致肽聚糖连接的表面蛋白在细菌表面上展示。根据序列相似性和底物,分选酶分为六大类(A-F 类)。在这些类别中,A 类分选酶可识别其底物的规范 LPXTG 识别motif;然而,这种经典序列motif的变异存在于其他分选酶底物中,并被它们各自的分选酶类别所利用。具体而言,NP[Q/K]TN、[I/L][P/A] XTG、LPNTA 和 LAXTG 是在表面蛋白的 CWSS 结构域中发现的其他五肽序列motif,它们分别被 B、C、D和E 类分选酶识别。然而,关于 F 类酶及其底物的信息有限。在各种分选酶中,只有 C 类酶可以将含有菌毛蛋白motif和 CWSS 的底物聚合成蛋白质聚合物(菌毛或菌毛)。相反,其他分选酶发挥细胞壁锚定作用。分选酶催化的转肽作用的主要原理是相同的,无论源自这些分选酶的最终产物如何。它从 LPXTG 识别motif的裂解开始,然后将裂解产物在 Thr 残基处与亲核体(例如肽聚糖干肽的活性氨基或菌毛蛋白motif的赖氨酸残基)交联。
几种革兰氏阳性细胞壁锚定蛋白是毒力因子,与细菌细胞对宿主组织的粘附有关。此外,细菌基因组内表面蛋白的数量可能超过分选酶的总数。尽管 CWSS 结构域高度保守,但所有表面蛋白均不包含规范的 LPXTG motif。此外,已经报道了这种短识别motif的物种特异性差异。由于细菌基因组测序项目的急剧增加,含有LPXTG motif的表面蛋白序列或其同源物的可用性也有所增加。因此,识别和注释可能作为潜在毒力因子的序列是必不可少的。虽然传统的实验方法可以准确地鉴定含有CWSS结构域的蛋白质,但是这种技术对于CWSS蛋白质的大规模鉴定而言成本高、费时、费力且效率低。因此,需要能够快速准确地从表面蛋白的一级序列中识别表面蛋白的新型计算方法来弥合测序和注释之间的差距。
在为识别表面蛋白中的 LPXTG 样motif而开发的少数​​计算方法中,只有一种方法 CW-PRED 是免费提供的。尽管以前的方法已显示出合理的性能,但仍必须解决一些缺点。首先,用于开发这些方法的序列数量有限,并且它们具有很高的序列相似性。其次,分类覆盖率非常低,这一点很重要,因为 CWSS 领域内物种特异性存在差异。第三,这些方法基于隐马尔可夫模型(Hidden Markov model,HMM),需要一定程度的序列相似性。此外,其中一些研究缺乏独立的数据集。因此,这些方法对于识别新的包含 CWSS 结构域的序列效率低下。因此,基于机器学习 (machine learning,ML) 的方法为开发预测模型以识别具有 LPXTG 样motif的表面蛋白提供了有前途的替代方案。尽管已经尝试开发基于 ML 的工具来预测和分类分选酶,但没有这样的方法可用于识别分选酶底物,即包含 CWSS 结构域或 LPXTG motif的序列。
在这项研究中,作者基于 ML 使用序列派生的最佳特征开发了一种名为 GPApred 的预测器。图1展示了GPPred的整体框架。为了开发 GPApred,作者利用了五种基于序列的编码,包括氨基酸组成 (amino acid composition,AAC)、组成/转换/分布 (composition/transition/distribution,CTD)、联合三联体 (conjoint triad,CTriad)、二肽组成 (dipeptide composition,DPC) 和准序列顺序 (quasi-sequence-order,QSO) ,以及这些特征的组合。确定每个描述符的最佳特征集后,使用支持向量机 (support vector machine,SVM) 训练这些编码,以区分包含 LPXTG 样motif的蛋白质与非 LPXTG 序列。最后,基于交叉验证和独立评估的一致性能选择最佳模型。据作者所知,这是首次开发出基于机器学习的方法来识别含有 LPXTG motif的细菌蛋白。该工具可以帮助有效识别具有 LPXTG 样motif的锚定蛋白,以进行功能表征和药物靶向。
在这里插入图片描述

2.数据

2.1 正样本

作者从 PFAM 数据库中检索了属于“gram_pos_anchor”(PFAM ID:PF00746)的所有序列。这些序列代表含有 LPXTG motif的细胞壁锚定蛋白。短于 100 个残基的序列和长于 5000 个残基的序列被排除在数据集中。此外,包含非标准氨基酸(B、J、O、U、X、Z)的序列和在 UNIPROT 数据库中注释为过时的 19 个序列被删除。使用这些过滤后的序列,为了减少冗余,作者使用 CD-HIT(v4.8.1)将阈值设置为 40% 生成了 2350 个 LPXTG 蛋白质序列的数据集。

2.2 负样本

(i) 从 UniProt 数据库中检索长度在 100 至 5000 个氨基酸之间的经过审查的细菌序列;
(ii) 删除所有正样本序列,即包含序列的“gram_pos_anchor”域;
(iii) 丢弃含有非标准氨基酸的序列;
(iv) 使用 CD-HIT将阈值设置为 40%进一步过滤所得序列。
经过以上步骤生成了超过 26,000 个序列的负数据集,该数据集明显高于正数据集,从而在两个数据集之间造成不平衡。使用此类不平衡数据集生成的模型会过度拟合,并且倾向于偏向属于较大类别的样本。相比之下,使用平衡数据集开发的预测模型更加可靠和稳健。因此,作者随机选择与正数据集中数量相似的负样本。

2.3 数据划分

为了确保正样本数据集和负样本数据集之间的相似性有限,作者删除了与正样本数据集中序列同一性 ≥25% 的所有序列。通过使用 R 中的插入符包的 createDataPartition 函数,将这两个数据集组合并分为训练集和独立验证集。最后,为了构建严格的验证集,作者从独立验证集(independent validation setI,IDS1)中删除了与训练集序列一致性≥50%的所有序列。最终IDS1中含有430个正样本,489个负样本。

2.4 非冗余独立数据集构建

为了评估 CW-PRED 和 GPApred 对潜在的新型 LPXTG 样蛋白的性能,作者还构建了一个额外的非冗余独立数据集 (IDS2),该数据集由 601 个序列组成,其中包括 114 个正序列和 487 个负序列。2021 年 12 月至 2022 年 3 月期间的 NCBI 蛋白 (https://www.ncbi.nlm.nih.gov/ Protein) 和 UniProt 数据库。这些序列与原始 IDS1 数据集的序列同一性 <30%。

3.方法

3.1 特征提取

3.1.1 氨基酸组成( Amino acid composition,AAC)

氨基酸频率,20维特征向量

3.1.2 组合 (Composition,C)、过渡 (Transition,T) 和分布 (Distribution,D) (CTD)

Dubchak 等人在论文【Prediction of protein folding class using global description of amino acid sequence】中描述了 CTD 描述符,用于预测蛋白质折叠类别,并代表蛋白质序列特定结构和理化性质的氨基酸模式分布。在CTD中,20种标准氨基酸根据七种不同的理化性质分为三组,例如疏水性、标准化范德华体积、极化性和极性。在 CTD 中,C 是给定蛋白质序列的极性、中性和疏水残基的分数,T 计算氨基酸的特定属性由另一个属性发展的百分比频率,D 包含三组中每一组的五个值,并确定特定属性的 25%、50%、75% 和 100% 的氨基酸位于其中的靶序列长度的百分比。
总体而言,CTD生成了 147 维的特征向量

3.1.3 联合三联组 (Conjoint triad,CTriad)

Shen等人在论文【Predicting protein-protein interactions based only on sequences information】中提出CTTriad编码来预测蛋白质-蛋白质相互作用。在 CTriad 中,蛋白质序列被描述为包含氨基酸特征的向量空间。因此,通过根据偶极子和侧链体积对 20 个天然存在的氨基酸进行聚类来修剪向量空间,从而为任何给定的蛋白质序列生成 343 维特征向量

3.1.4 二肽组合物(Dipeptide composition ,DPC)

DPC定义为给定蛋白质序列中双氨基酸类型的频率, 具有 400(20 × 20)维特征向量

3.1.5 准序列顺序 (Quasi-Sequence Order,QSO)

QSO 描述符是论文【Prediction of protein subcellular locations by incorporating quasisequence-order effect】中通过测量给定蛋白质序列的氨基酸之间的物理化学距离而得出的,从而产生不同长度序列的 100 维特征向量

3.2 机器学习模型和参数优化

为了确定适合该问题的 ML 分类器,作者最初评估了五种不同的 ML 分类器,包括 K 最近邻 (K-nearest neighbor,KNN)、朴素贝叶斯 (naive Bayes,NB)、神经网络 (neural network,NNET)、随机森林 (random forest,RF) 和支持向量机 (support vector machine,SVM),使用 R 中著名的开源插入符包。简而言之,作者通过执行 10 倍交叉验证并在短范围内优化其超参数来开发各自的模型。初步结果表明,SVM 的性能优于其他分类算法。因此,使用SVM来解决这个问题,并应用宽网格搜索来优化径向基函数(radial basis function,RBF)核的两个主要参数: sigma (σ = 0.01, 0.02, 0.025, 0.03, 0.04, 0.05, 0.06, 0.07,0.08 、0.09、0.1、0.25、0.5、0.75、0.9 和 1)和成本函数(C = 0.01、0.05、0.1、0.25、0.5、0.75、1、1.50、2、2.5、3、3.5、4、4.5、和5)。
使用 10 倍交叉验证 (cross-validation,CV) 方法对 SVM 超参数进行网格搜索,并评估六种特征编码(AAC、CTD、CTriad、DPC、QSO 和 ACCDQ=混合)的性能。最后,选择了马修斯相关系数(Matthews correlation coefficient,MCC)方面性能最佳的参数。在10倍CV中,训练数据被随机分为10个子集,其中9个子集用于训练,1个子集用作测试集。该步骤重复十次,以确保每个子集至少用作测试集一次。对 10 次相应重复的性能进行平均,结果表明了分类器的整体性能。

3.3 特征选择

在这项工作中,我们使用 caret 包中的 RF 算法对所有六种特征编码应用了递归特征消除 (recursive feature elimination ,RFE) 协议。在 RFE 期间,生成了不同大小的训练数据的多个子集(例如,5、10、20 和 50-1010,步长为 50)。每组都作为 RF 分类器的输入,并进行 10 倍 CV。 RFE 是一种特征选择算法,试图根据学习的模型和分类精度找到最佳的特征子集,并已广泛应用于多种机器学习应用中。
除了 RFE 之外,作者还采用了两步特征选择方法,该方法广泛用于从原始特征维度识别信息特征。第一步包括根据评分函数为每个特征分配相对分数,而第二步包括对特征列表应用顺序前向搜索 (sequential forward search,SFS) 以识别最佳特征子集。
在这里,我们采用了三种评分函数,即 F-score、基于RF和SVM的特征重要性得分 (feature importance score,FIS):RFIS和 SFIS,基于它们区分 LPXTG 样蛋白和非 LPXTG 蛋白的能力。对于每个评分函数,使用 SVM 分类器和 10 倍交叉验证独立训练次优特征子集。然后,对这些模型的性能进行比较,并选择性能最好的模型,其次优特征集被认为是最优特征集。

4.结果和讨论

4.1 正样本数据集概述

在最终的正样本数据集中,有 2350 个含有 LPXTG 或 LPXTG 样细胞壁锚定结构域的蛋白质,任何两个给定序列之间的序列同一性≤40%。该数据集包含来自广泛分类群的 371 个独特细菌属的序列(图2A)。
在这里插入图片描述
尽管IDS2和阳性数据集之间的序列相似性有限,但两个数据集之间的motif分布非常相似,并且LPQTG和LPKTG是最主要的识别motif(图2C)。

4.2 使用训练数据集和最佳特征集选择进行基于 SVM 的性能分析

为了深入了解各种特征对LPXTG样蛋白和非LPXTG蛋白分类的贡献,作者利用原始特征维度和基于RFE的最佳特征子集开发了几种模型(图3)。除AAC外,其余特征编码的维度都较大(>100D)。因此,减少特征尺寸是必要的,因为某些编码可能是多余的或者可能不那么重要。图 3C 概述了最佳选择的混合特征以及 150D 特征向量中各个描述符的贡献。
在这里插入图片描述
在这里插入图片描述

4.3 RFE 方法与其他特征选择方法的比较

作者还使用了两步特征选择方法,其中包括根据三种不同的评分函数(F-score、RFIS 和 SFIS)分配相对分数,以及顺序前向搜索。作者按每个评分函数的相对分数对特征进行排序,并依次添加 10 个特征,从而产生 101 个不同的次优特征集。图 A 说明了基于三个不同评分函数的 SVM 分类器在每个特征集上的性能。结果表明,一开始随着特征维度的增加,性能逐渐提高,直到添加300D特征时性能保持稳定。当特征数量超过 300D 时,无论使用什么评分函数,SVM 性能都会恶化。
在这里插入图片描述

4.4 最佳特征和排除特征之间基于 SVM 的性能比较

为了检查最佳特征是否优于每个特征编码所排除的特征,作者基于排除的特征开发了预测模型,并将其性能与控制(使用所有特征)和最佳特征的性能进行了比较。对于此分析,仅使用了四种特征编码:CTD、CTriad、DPC 和 ACCDQ(混合)。其余两种编码(AAC 和 QSO)被排除,因为原始特征维度被认为是最佳的。
在这里插入图片描述

4.5 独立测试的性能

表 2 总结了使用最佳特征的基于 SVM 的模型的各种指标。有趣的是,整体性能与交叉验证性能相似,表明所开发模型的稳健性。具体来说,使用最佳混合特征(ACCDQ)的模型表现出最佳性能,准确率和 MCC 分数分别为 0.972 和 0.94。混合特征在训练数据集上取得了类似的结果,这表明这些模型可能有助于从细菌蛋白质组中识别假定的 LPXTG 样序列。
在这里插入图片描述

4.6 使用独立测试集(IDS1)进行 GPApred 和 CW-PRED 的性能比较

由于 GPApred 是第一个基于 ML 的预测器,因此无法进行直接比较。 CW-PRED是一种基于HMM的方法,是目前唯一可用的鉴定革兰氏阳性菌中LPXTG样细胞壁蛋白的方法。尽管如此,作者还是尝试使用 IDS1 来比较这两种方法的性能,因为 CW-PRED 是在十年前提出的,从那时起,许多新的包含 LPXTG motif的蛋白质可能已经存放在序列数据库中。比较分析表明,GPAPred 和 CW-PRED 均正确预测了 373 个 LPXTG 样蛋白。更具体地说,IDS1 中的 430 个序列中的 379 个被 CW-PRED 正确识别为 LPXTG 或 LPXTG 样细胞壁蛋白(表3)。GPAPred 鉴定了 48 个含有 LPXTG motif的蛋白质,而 CW-PRED 仅鉴定了 6 个(表3)。
在这里插入图片描述
作者还检查了如果在独立验证中使用大量负样本,模型是否仍会表现更好。使用剩余的约 24,000 个负样本(不包括训练和 IDS1 中使用的负样本)来评估 GPApred 的性能。结果表明,96.38% 的负序列被 GPApred 正确识别,而 882/24406 条序列(3.6%)被错误地归类为 LPXTG 样蛋白。然而,当CW-PRED在较大的负样本数据集上进行测试时,性能明显下降,准确预测了87.7%的负样本,其中12.29%被错误地分类为正样本,表明该方法在应用于大样本量时存在局限性。

4.7 使用独立测试集(IDS2)进行 GPApred 和 CW-PRED 的性能比较

预测结果表明,GPAPred 正确预测了 IDS2 数据集的几乎所有(112/114)正序列(表 3)。两条序列(各一条来自瑞士乳杆菌和路邓葡萄球菌)被错误地分类为不含 LPTTG 结构域的蛋白质。同样,GPPred 将 31/487 (6.3%) 负序列错误地预测为正序列。相比之下,CW-PRED 仅正确识别了 104/ 114 个 LPXTG 样蛋白; 8 个序列被预测为膜蛋白,而 2 个序列没有进行预测。然而,这 10 个序列包含 LPXTG 样motif,并且被 GPApred 正确预测为阳性序列。在负序列中,CW-PRED 正确识别了 423/487 个负序列。其余 64 个负序列被分类为膜蛋白。这些数据表明 CW-PRED 预测偏向于膜域。然而,GPPred 会考虑整个序列及其各种属性来做出最终预测。因此,GPAPred 表现出优于基于比对的 CW-PRED 的性能。

5.结论

LPXTG 样蛋白除了在毒力中发挥作用外,还在细胞粘附、侵袭和免疫反应中发挥着关键作用。这些蛋白质也是药物和疫苗有希望的靶标。认识到 LPXTG 样蛋白的多样性,很难根据其一级氨基酸序列来识别此类蛋白。因此,作者在这项研究中提出了一种新型的基于机器学习的预测器 GPApred,它利用序列衍生的最佳特征来识别革兰氏阳性菌的 LPXTG 样表面蛋白。尽管作者采用了五种独立的特征编码,但结果表明,使用由成分信息和物理化学性质组成的混合方案的 SVM 模型表现出最佳性能。与现有的基于 HMM 的方法相比,GPPred 还表现出优越的性能。这是首次应用基于机器学习的方法,利用序列衍生特征来识别 LPXTG 样表面蛋白。作者期望 GPApred 因其准确和稳定的性能而成为大规模鉴定 LPXTG 样表面蛋白的有用工具。尽管 GPApred 显示了合理的预测性能,但仍有很大的改进空间。例如,在更大的数据集上开发模型、测试其他特征编码以及利用更复杂的计算框架可以帮助提高预测性能。此外,可以在未来的工作中探索对特定分选酶的 LPXTG 蛋白的预测。

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值