MLACP 2.0:一种更新的抗癌肽预测机器学习工具

抗癌肽是一种新型的抗癌药物,副作用小,比化疗和靶向治疗更有效。从序列信息预测抗癌肽是免疫信息学中最具挑战性的任务之一。在过去的十年里,已经提出了基于机器学习的方法来从肽序列中识别ACP活性。这些方法包括我们之前的方法MLACP(开发于2017年),它对抗癌研究产生了重大影响。MLACP工具已被研究界广泛使用,但其健壮性仍需显著提高,才能继续得到实际应用。在本研究中,首次构建了用于ACP研究的==大型非冗余训练和独立数据集==。使用训练数据集,该研究探索了广泛的特征编码,并使用七种不同的传统分类器开发了各自的
摘要由CSDN通过智能技术生成

期刊:Computational and Structural Biotechnology

作者:

  • Le Thi Phan
  • Hyun Woo Park
  • Thejkiran Pitti
  • Thirumurthy Madhavan
  • Young-Jun Jeon Balachandran
    Manavalan

单位:

韩国 成均馆大学生物技术与生物工程学院综合生物技术系 计算生物学和生物信息学实验室,

摘要

抗癌肽是一种新型的抗癌药物,副作用小,比化疗和靶向治疗更有效。从序列信息预测抗癌肽是免疫信息学中最具挑战性的任务之一。在过去的十年里,已经提出了基于机器学习的方法来从肽序列中识别ACP活性。这些方法包括我们之前的方法MLACP(开发于2017年),它对抗癌研究产生了重大影响。MLACP工具已被研究界广泛使用,但其健壮性仍需显著提高,才能继续得到实际应用。在本研究中,首次构建了用于ACP研究的大型非冗余训练和独立数据集。使用训练数据集,该研究探索了广泛的特征编码,并使用七种不同的传统分类器开发了各自的模型。随后,根据分类器的性能为每个分类器选择基于编码的模型的子集,其预测分数被串联并通过卷积神经网络(CNN)进行训练,其对应的预测器被命名为MLACP 2.0。使用一个非常多样化的独立数据集对MLACP 2.0进行的评估显示出出色的性能,并且显著优于最近的ACP预测工具。此外,与基于CNN的嵌入模型和传统的单一模型相比,MLACP 2.0在交叉验证和独立评估中表现出更好的性能。因此,我们预计,我们提出的MLACP 2.0将通过使发现新的ACP变得更容易,从而促进假设驱动实验的设计。

MLACP2.0可在https://balalab-skku.org/mlacp2.上免费获得

1. Introduction

癌症是对人类健康的突出威胁之一,在发达国家和发展中国家,随着预期寿命的延长,癌症往往与更高的死亡率有关。2018年,世界卫生组织(WHO)和国际癌症研究机构(IARC)报告称,癌症造成1810万新病例和960万死亡[2]。癌症是由异常细胞的不受控制的增殖引起的,这些细胞侵入正常的组织和器官,并以不受控制的方式繁殖。癌症的复杂性和异质性使其治疗变得困难。因此,癌症治疗必须主要集中在限制癌细胞的增殖和抑制其扩散[4]。

在传统的外科手术中,不能保证精确切除癌变部位。放射治疗、化疗和靶向治疗是癌症最常见的治疗方法。

尽管如此,这些疗法并不是非常精确,因为它们无法区分癌细胞和健康细胞,结果既破坏了健康细胞,又杀死了癌细胞。然而,这些疗法价格昂贵,对患者有负面副作用[6,7]。此外,由于癌细胞的基因组是动态变化的,它们可能对化疗药物产生抗药性[8]。因此,迫切需要开发一种新的癌症治疗方法,这种治疗方法没有不良反应,减少耐药性,并特异性地针对癌细胞。

抗菌肽(AMP)是一类不同的生物活性分子,可提供对细菌、原生动物、真菌和病毒的保护[9]。显示出潜在抗癌特性的AMPs的一个子集称为抗癌肽(ACPs),它是序列长度不超过50个氨基酸残基的短肽[10]。ACPs具有两亲性,因为它存在疏水和阳离子残基,与癌细胞的阴离子膜相互作用,选择性地靶向和杀死癌细胞[11]。ACPs可以基于膜电荷靶向癌细胞,该电荷在膜和ACPs之间形成静电相互作用,从而使正常细胞保持不变。

这是在癌症治疗中使用ACP相对于目前可用的方法的主要优势。此外,ACP是天然的生物抑制剂,而且很容易合成,这使它们成为治疗癌症的理想治疗剂。有鉴于此,与传统疗法相比,基于多肽的疗法已成为一种有前途的癌症治疗剂,因为它们毒性小、特异性高、能够穿透膜,并且易于化学修饰[14,15]。

已经提出了几种用于ACP识别的计算预报器。其中许多方法在最近的文献[16,17]中进行了综述,包括我们以前的方法MLACP[18]。它是使用不平衡的数据集、四种不同编码的线性集成、支持向量机(SVM)和随机森林(RF)构建的。MLACP在研究界得到广泛应用,因此在ACP研究界越来越受欢迎。经过实验验证的ACP的数量呈指数级增长;因此,现在是时候利用先进的计算技术更新以前的版本,从而提高其准确性和稳健性。

MLACP 2.0的开发涉及以下步骤:(I)在广泛的文献/数据库搜索的基础上,创建了高质量的非冗余训练数据集和独立数据集。(Ii)系统地评估了17种不同的特征编码(包括传统编码和单词嵌入),并使用7种不同的传统分类器(RF、梯度增强(GB)、支持向量机(SVM)、极端梯度增强(XGB)、AdaBoost(AB)、光梯度增强(LGB)和极端随机化树(ERT))建立了相应的模型。(Iii)对于每个分类器,基于特定标准从17个基于编码的模型中选择模型子集,马修斯相关系数(MCC)大于17个基于编码的模型的平均MCC。随后,基于所选模型的子集的来自七个分类器的ACP的预测概率被串联,并使用卷积神经网络(CNN)进行训练,用于最终预测,MLACP 2.0。大量的基准测试验证了MLACP 2.0的有效性:在交叉验证和独立评估的基础上,与传统的单一编码模型和基于CNN的单热编码和单词嵌入模型相比,该模型获得了更准确和稳定的性能。在一项独立测试中,MLACP 2.0的表现明显优于现有的预测指标。利用提出的混合集成模型,实现了一个用户友好的MLACP(https://balalab-skku.org/mlacp2/))在线预报器。

2. Materials and methods

2.1. Construction of datasets

这项研究的目的是利用现有的方法数据集开发一个预测模型,并基于新构建的数据集对所提出的模型进行评估。通过提取现有的37个方法的训练数据集并将其分为ACP和非ACP来构建训练数据集

值得注意的是,几种方法使用相同的数据集,因此一些序列是多余的。在ACP中应用CD-HIT0.8,得到1084个肽序列。同样的截止值被应用于非ACP样本,其序列与ACP重叠导致7500个序列。然而,我们随机选择了1084个非ACP,以避免在建模过程中的阶级偏见,并平衡ACP。这是第一次将如此大的非冗余数据集用于ACP预测研究中的训练或模型构建。

独立数据集:从以下11个数据库中提取ACP:CancerPPD[20]、APD3[21]、PlantPepDB[22]、DBAASPv3.0[23]、SATPdb[24]、ADAM、Dramp 3.0、LAMP[27]、Peptipedia、DbAMP和AMPun,产生3725个ACP。其次,将0.80的CD-HIT应用于与训练ACP序列重叠的收集的ACP,得到769个序列。不同于以往随机多肽被认为是非ACPs的研究,我们考虑了其他功能多肽(抗高血压和抗病毒等)、一小部分随机肽、AMP和非ACPs,并通过实验确认非促炎诱导多肽为非ACPs,得到了1287个非冗余非ACPs。这个独立的数据集可以作为评估未来ACP预测模型的金标准。此外,补充信息包括数据集长度分布和成分分析的简要描述。

2.2. Feature encodings

探索同一数据集上的不同特征编码的过程对于理解和识别适当的编码是必不可少的。考虑到这一点,本研究使用了广泛的特征,包括15个常规编码(二肽组成(DPC)、二肽偏离预期平均值(DDE)、氨基酸组成(AAC)、组成转变和分布(CTDC、CTDT和CTDD)、分组DPC(GDPC)、增强分组AAC(EGAAC)、分组三肽组成(GTPC)、BLOSUM62(BLOS)、增强AAC(EAAC)、K间隔连接三联体(KSC)、KSAAGP准序列顺序(QSO)组成)、。和Z尺度)和双字嵌入是来自seq2vec的单热编码(10HE)和预训练嵌入。在这17个编码中,11个编码(AAC、CKSAAGP、CTDC、CTDD、CTDT、DDE、DPC、KSC、QSO、10HE和seq2vec)对ACP预测最重要和显著。值得注意的是,九种传统编码对最终预测做出了贡献,其编码细节在我们之前的研究中有广泛的描述[31]。

使用相同的过程,分别编码20、275、39、195、39、400、400、343、100个D特征向量的AAC、CKSAAGP、CTDC、CTDD、CTDT、DDE、DPC、KSC、QSO。值得注意的是,这些特征已被归一化如下:Xnorm = x − min ⁡ ( x ) max ⁡ ( x ) − min ⁡ ( x ) =\frac{x-\min (x)}{\max (x)-\min (x)} =max(x)min(x)xmin(x)以下是对这些单词嵌入的简要描述:

2.3. 1OHE

在二进制编码技术中,One-Hot编码方法相当流行。我们的数据集中多肽的最大长度是50个氨基酸。如果残基<50个氨基酸,则在C末端添加虚拟残基X。因此,每个氨基酸由一个21维的特征向量来表示,其中标准氨基酸在不同的位置用1来表征,在剩余的20个位置用0来表征。另一方面,虚拟残基完全由零组成。这导致了1050维的特征向量。

2.4. Seq2vec

我们利用seq2vec的预训练嵌入来实现迁移学习的概念。Heinzinger等人通过使用从UniRef50中提取的数百万个蛋白质序列训练ELMO模型来开发预训练嵌入。在这项研究中,我们使用了相同的预训练嵌入,为给定的多肽序列提供了1024D特征向量。

2.5. MLACP 2.0 framework

MLACP 2.0框架(图1)是使用上面提到的训练数据集和特征编码开发的,它包括构建基线模型和开发元预测器。

基线模型的构建:我们使用了在生物信息学和计算生物学中广泛应用的七种不同的分类器(RF、ERT、支持向量机GB、AB、LGB和XGB)。对于每个分类器,都有一组超参数,它们决定了交叉验证期间模型的性能。

我们使用网格搜索方法和10次交叉验证来优化超参数。为了构建每个基线模型,对训练样本进行随机分割,重复10次交叉验证5次,并将中值参数作为最终的最佳值。这些值随后被用来构建最终的基线模型。每个分类器的超参数搜索范围如下:(I)LGB七个超参数是:num_Leaves[50到100]间隔20,max_bins [200到400],间隔10,n_estimators[100到2000],间隔10,min_Child_Samples [30到400],间隔10,max_深度[5到12],间隔1,学习速率2[ 1 0 − 6 到 1 0 − 1 10^-6到10^-1 1061

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值