论文解读:《Prediction of anticancer peptides based on an ensemble model of deep learning and machine learning using ordinal positional encoding》
文章地址:https://academic.oup.com/bib/article-abstract/24/1/bbac630/6987656?login=true
DOI:https://doi.org/10.1093/bib/bbac630
期刊:BRIEFINGS IN BIOINFORMATICS
2022年影响因子/JCR分区:13.994/Q2
发布时间:2023年1月24日
Github: https://github.com/khanhlee/acp-ope/
1.文章概述
抗癌肽(Anticancer peptides,ACPs)是一类已被证明具有抗癌活性的肽。使用ACP来预防癌症可能是传统癌症治疗的可行替代方案,因为它们更安全,并显示出更高的选择性。针对ACP识别实验受限、成本高、耗时长的问题,所以作者提出了一种利用序列信息预测ACP的计算方法。该过程包括肽序列的输入,利用位置信息进行序列编码和手工特征提取,最后进行特征选择。整个模型由两个模块组成,包括深度学习和机器学习算法。深度学习模块包含两个通道:双向长短期记忆(BiLSTM)和卷积神经网络(CNN)。机器学习模块采用LightGBM。最后,作者针对得出模型集成层的三条路径,对三个模型的分类结果进行了投票。该研究为ACP预测提供了一种新的方法,并提供了一个有前景的性能。与以往的研究相比,本文使用了基准数据集进行进一步的探索和改进。最终模型的ACC为0.7895,SN为0.8153,SP为0.7676,与最先进的研究相比,在所有指标上至少提高了2%。
2. 关键点
- 采用带有位置信息的序列编码方法提取特征;
- 采用机器学习和深度学习相结合的方法构建模型;
- 与之前的模型相比,提出的方法在5倍交叉验证和独立测试方面都有显著的改进;
- 生物学家和科学家谁想进行研究抗癌肽有用的资源。
3.背景
癌症是一种致命的疾病,每年在全世界夺去数百万人的生命。癌症治疗是人类面临的一个严重的医学问题。近年来最常见的癌症治疗方法是放疗、化疗和靶向治疗。这些药物旨在杀死癌细胞,但它们也会破坏正常细胞。这些手术有明显的副作用,同时,对许多人来说是遥不可及的。
因此,抗癌肽的研究方向开始转向,ACPs与其他癌症疗法相比有几个优点。例如,它们似乎更安全,因为它们是天然的生物靶标。此外,由于其固有的阴离子性质,它们具有更好的选择性杀伤癌细胞,优先与癌细胞的阴离子生物膜部分连接。
多年来,ACPs疗法在各个临床阶段得到了广泛的研究和实施,但在临床治疗中应用的数量有限。尽管如此,计算预测方法在ACPs的筛选、发现和预测中正变得越来越重要。研究人员一直致力于开发一种更快、更便宜的方法来发现和识别新的ACPs。
在过去的十年里,大量的文章都集中在ACPs预测上。例如,Tyagi等人基于支持向量机(SVM)提出了AntiCP用于预测ACPs。hajishariifi等人也利用Chou的伪氨基酸组成(pseudo amino acid composition, PseAAC)和局部对齐核(local alignment kernel)结合SVM实现了对ACPs的高精度预测。Vijayakumar和Lakshmi基于氨基酸组成信息中心和分布指标的预测技术开发了ACPP。在二肽组合的帮助下,Chen等人基于二肽组合的提出了预测方法叫做iACP。Li和Wang等人用AAC、平均化学位移和降低的AAC表示来预测ACPs。Rao等人通过合并多视图数据来增加特征能力提出了ACPred-Fuse。近年来,深度神经网络在生物信息学领域显示出良好的应用前景,深度神经网络也被用于ACP的预测。例如,Yu等人检查了三种不同的深度学习架构,发现双向长短期记忆(BiLSTM)在ACP预测中表现良好。Ahmed等人利用并行卷积群学习并组合了三种不同的特征预测ACPs。
经过筛选,作者找到了四篇对我们的研究内容更有针对性和建设性的最新文章。Lv等人提出了一个使用深度表示学习特征的ACP预测器,本研究采用了两种序列嵌入策略,包括软对称对齐和统一表示嵌入;此外,Cao等人提出了一种基于多模态序列特征的双通道集成学习算法,第一个频道使用卷积神经网络(CNN)架构,第二个频道旨在提取最佳手工特征;Chen等人通过结合二元剖面和生化性质特征来描述肽序列,然后在高维空间中增加样本;Yi等人通过同化还原氨基酸字母的二进制剖面和K-mer稀疏矩阵,提出了一种充分利用肽序列信息的有效特征提取策略。
本工作的主要贡献如下:(1)提出了一种新的蛋白质序列编码方法,为类似的蛋白质学习问题提供了一种通用的解决方案;(2)提出了一种机器学习和深度学习的集成架构,以出色地捕捉蛋白质序列的特征;(3)提出了一种新的模型,其性能优于最新的预测器。
4.数据
为了便于后续比较,作者使用了与【Anticancer peptides prediction with deep representation learning features】论文中相同的数据集。该数据集包含1718个实验验证数据(包括859个ACP和859个非ACP)。其中ACP来自CancerPPD数据库,负样本来自抗菌肽。数据被分为两个子集用于训练(进行交叉验证)和独立的数据集。它们可以在AntiCP 2.0服务器上免费访问和下载。
5.方法
5.1 肽序列编码
5.1.1 顺序编码
将氨基酸分为21类,并像基准论文那样对它们进行编码。由于数据集中最长的序列是50,如果序列长度小于50,我们用0填充它。
5.1.2 顺序位置编码
作者设计了另一种添加位置信息的编码方法。每种氨基酸都是根据其在序列中的位置的种类编码。例如,序列ACD被转换为向量形式[[1],[52],[103],[0],[0],…,[0]]。如果序列长度小于50,用零值填充它。这样,在编码中一定程度上加入了氨基酸的位置信息。利用这种思想,不仅使用氨基酸编码,还使用氨基酸在序列中的位置来训练模型。该编码方法可以显著提高CNN模型的性能。经过研究发现,带有位置信息的编码方法可以提高交叉验证的精度。
5.1.3 氨基酸组成(Amino acid composition,AAC)
5.1.4 二肽成分(Dipeptide composition,DPC)
5.1.5 k -间距氨基酸基对的组成(Composition of K-Spaced amino acid group pairs)
5.1.6 K-mer稀疏矩阵(K-mer sparse matrix)
5.2 特征选择
由于手工制作的特征总数超过700个,作者使用随机森林(RF)和光梯度增强机(LGBM)为深度学习模型选择重要的特征。将手工制作的特征和标签作为输入,随机森林和LGBM的内置函数可以获得特征的重要性,然后将这些特征按重要性排,通过使用不同数量的特征进行实验,作者发现它在选择大约150个特征时表现最佳。如果使用CNN架构,随机森林有助于建立比LGBM更好的特性。对于BiLSTM和循环神经网络(RNN), LGBM选择的更好。最后,作者决定使用这两种方法,并根据它们在每种体系结构上的性能直接应用它们。
5.3 模型
5.3.1 机器学习
作者使用SVM, RF, XGBoost和LightGBM模型作为监督机器学习分类算法。将序数编码和其他手工特征连接在一起,作为机器学习模型的输入。所有机器学习模型都经过超参数调优来找到最优参数。
5.3.2 深度学习
作者提出一种基于双通道思想的深度学习架构。第一个通道是CNN,用于提取序列的深层特征;第二个是学习生成的特征。作者的CNN架构是使用1D CNN层(256个滤波器和2个内核大小)构建的,然后是最大池化层(池化大小为2)。除了CNN架构,作者还评估了不同深度学习架构的性能,即RNN, Bi-LSTM和transformers。此外,在神经网络层之后添加了注意层,以观察其提高性能的潜力。首先,将序数编码输入到深度学习层,然后通过Dense层连接到其他手工特征。在最后阶段,添加另一个分类器来学习上述特征。作者还比较了有序列数据增强和没有序列数据增强的模型。所有的深度学习模型都训练了25个epoch。
5.3.3 集成模型
最终的模型包括两个模块:深度学习和机器学习。经过多次实验,最佳的深度学习模块包含两个通道:Bi-LSTM通道和CNN通道。
第一种途径是将肽序列输入序数编码层,然后进入Bi-LSTM通道。经过嵌入层和Bi-LSTM层后,输出为与手工制作的特征拼接并依次输入到dropout层和Dense层中。
在第二条途径上,有两个主要的区别。首先,采用另一种包含位置信息的编码方法,弥补了CNN模型不记忆顺序关系的不足;其次,在输入到CNN频道之前,连接了手工制作的特征。
第三步,将序列数据输入特征提取层,生成745维的手工特征。然后,将这些特征与序数编码特征进行拼接,输入到LightGBM模型中。
最后,将这三个模型的分类结果以相同的权重进行投票,在模型集成层中得到最终结果。
6.结果
6.1 机器学习模型的性能结果
6.2 深度学习模型的性能结果
6.2.1 卷积神经网络
6.2.2 循环神经网络
6.2.3 双向长短期记忆
6.3 集成模型的性能结果
7.结论
综上所述,作者所提出的最终模型的准确率为0.7895,与之前的研究相比,准确率提高了1.5%以上。此外,将深度学习模型与机器学习方法相结合,开辟了生物信息学建模的新途径。同时,简单地增加模型的复杂性会导致性能下降,有时简单的模型可以有更好的性能。此外,科学家将能够在未来的研究中利用我们的架构来处理acp的预测问题,从而促进生物信息学的进步。