论文解读:《基于有序位置编码的深度学习和机器学习集成模型的抗癌肽预测》

文章地址:https://academic.oup.com/bib/article-abstract/24/1/bbac630/6987656?login=true
DOI:https://doi.org/10.1093/bib/bbac630
期刊:BRIEFINGS IN BIOINFORMATICS
2022年影响因子/JCR分区:13.994/Q2
发布时间:2023年1月24日
Github: https://github.com/khanhlee/acp-ope/

1.文章概述

抗癌肽(Anticancer peptides,ACPs)是一类已被证明具有抗癌活性的肽。使用ACP来预防癌症可能是传统癌症治疗的可行替代方案,因为它们更安全,并显示出更高的选择性。针对ACP识别实验受限、成本高、耗时长的问题,所以作者提出了一种利用序列信息预测ACP的计算方法。该过程包括肽序列的输入,利用位置信息进行序列编码和手工特征提取,最后进行特征选择。整个模型由两个模块组成,包括深度学习和机器学习算法。深度学习模块包含两个通道:双向长短期记忆(BiLSTM)和卷积神经网络(CNN)。机器学习模块采用LightGBM。最后,作者针对得出模型集成层的三条路径,对三个模型的分类结果进行了投票。该研究为ACP预测提供了一种新的方法,并提供了一个有前景的性能。与以往的研究相比,本文使用了基准数据集进行进一步的探索和改进。最终模型的ACC为0.7895,SN为0.8153,SP为0.7676,与最先进的研究相比,在所有指标上至少提高了2%。

2. 关键点

  1. 采用带有位置信息的序列编码方法提取特征;
  2. 采用机器学习和深度学习相结合的方法构建模型;
  3. 与之前的模型相比,提出的方法在5倍交叉验证和独立测试方面都有显著的改进;
  4. 生物学家和科学家谁想进行研究抗癌肽有用的资源。

3.背景

癌症是一种致命的疾病,每年在全世界夺去数百万人的生命。癌症治疗是人类面临的一个严重的医学问题。近年来最常见的癌症治疗方法是放疗、化疗和靶向治疗。这些药物旨在杀死癌细胞,但它们也会破坏正常细胞。这些手术有明显的副作用,同时,对许多人来说是遥不可及的。
因此,抗癌肽的研究方向开始转向,ACPs与其他癌症疗法相比有几个优点。例如,它们似乎更安全,因为它们是天然的生物靶标。此外,由于其固有的阴离子性质,它们具有更好的选择性杀伤癌细胞,优先与癌细胞的阴离子生物膜部分连接。
多年来,ACPs疗法在各个临床阶段得到了广泛的研究和实施,但在临床治疗中应用的数量有限。尽管如此,计算预测方法在ACPs的筛选、发现和预测中正变得越来越重要。研究人员一直致力于开发一种更快、更便宜的方法来发现和识别新的ACPs。
在过去的十年里,大量的文章都集中在ACPs预测上。例如,Tyagi等人基于支持向量机(SVM)提出了AntiCP用于预测ACPs。hajishariifi等人也利用Chou的伪氨基酸组成(pseudo amino acid composition, PseAAC)和局部对齐核(local alignment kernel)结合SVM实现了对ACPs的高精度预测。Vijayakumar和Lakshmi基于氨基酸组成信息中心和分布指标的预测技术开发了ACPP。在二肽组合的帮助下,Chen等人基于二肽组合的提出了预测方法叫做iACP。Li和Wang等人用AAC、平均化学位移和降低的AAC表示来预测ACPs。Rao等人通过合并多视图数据来增加特征能力提出了ACPred-Fuse。近年来,深度神经网络在生物信息学领域显示出良好的应用前景,深度神经网络也被用于ACP的预测。例如,Yu等人检查了三种不同的深度学习架构,发现双向长短期记忆(BiLSTM)在ACP预测中表现良好。Ahmed等人利用并行卷积群学习并组合了三种不同的特征预测ACPs。
经过筛选,作者找到了四篇对我们的研究内容更有针对性和建设性的最新文章。Lv等人提出了一个使用深度表示学习特征的ACP预测器,本研究采用了两种序列嵌入策略,包括软对称对齐和统一表示嵌入;此外,Cao等人提出了一种基于多模态序列特征的双通道集成学习算法,第一个频道使用卷积神经网络(CNN)架构,第二个频道旨在提取最佳手工特征;Chen等人通过结合二元剖面和生化性质特征来描述肽序列,然后在高维空间中增加样本;Yi等人通过同化还原氨基酸字母的二进制剖面和K-mer稀疏矩阵,提出了一种充分利用肽序列信息的有效特征提取策略。
本工作的主要贡献如下:(1)提出了一种新的蛋白质序列编码方法,为类似的蛋白质学习问题提供了一种通用的解决方案;(2)提出了一种机器学习和深度学习的集成架构,以出色地捕捉蛋白质序列的特征;(3)提出了一种新的模型,其性能优于最新的预测器。

4.数据

为了便于后续比较,作者使用了与【Anticancer peptides prediction with deep representation learning features】论文中相同的数据集。该数据集包含1718个实验验证数据(包括859个ACP和859个非ACP)。其中ACP来自CancerPPD数据库,负样本来自抗菌肽。数据被分为两个子集用于训练(进行交叉验证)和独立的数据集。它们可以在AntiCP 2.0服务器上免费访问和下载。

5.方法

5.1 肽序列编码

5.1.1 顺序编码

将氨基酸分为21类,并像基准论文那样对它们进行编码。由于数据集中最长的序列是50,如果序列长度小于50,我们用0填充它。

5.1.2 顺序位置编码

作者设计了另一种添加位置信息的编码方法。每种氨基酸都是根据其在序列中的位置的种类编码。例如,序列ACD被转换为向量形式[[1],[52],[103],[0],[0],…,[0]]。如果序列长度小于50,用零值填充它。这样,在编码中一定程度上加入了氨基酸的位置信息。利用这种思想,不仅使用氨基酸编码,还使用氨基酸在序列中的位置来训练模型。该编码方法可以显著提高CNN模型的性能。经过研究发现,带有位置信息的编码方法可以提高交叉验证的精度。
在这里插入图片描述

5.1.3 氨基酸组成(Amino acid composition,AAC)

在这里插入图片描述

5.1.4 二肽成分(Dipeptide composition,DPC)

在这里插入图片描述

5.1.5 k -间距氨基酸基对的组成(Composition of K-Spaced amino acid group pairs)

在这里插入图片描述
在这里插入图片描述

5.1.6 K-mer稀疏矩阵(K-mer sparse matrix)

在这里插入图片描述

5.2 特征选择

由于手工制作的特征总数超过700个,作者使用随机森林(RF)和光梯度增强机(LGBM)为深度学习模型选择重要的特征。将手工制作的特征和标签作为输入,随机森林和LGBM的内置函数可以获得特征的重要性,然后将这些特征按重要性排,通过使用不同数量的特征进行实验,作者发现它在选择大约150个特征时表现最佳。如果使用CNN架构,随机森林有助于建立比LGBM更好的特性。对于BiLSTM和循环神经网络(RNN), LGBM选择的更好。最后,作者决定使用这两种方法,并根据它们在每种体系结构上的性能直接应用它们。

5.3 模型

5.3.1 机器学习

作者使用SVM, RF, XGBoost和LightGBM模型作为监督机器学习分类算法。将序数编码和其他手工特征连接在一起,作为机器学习模型的输入。所有机器学习模型都经过超参数调优来找到最优参数。
在这里插入图片描述

5.3.2 深度学习

作者提出一种基于双通道思想的深度学习架构。第一个通道是CNN,用于提取序列的深层特征;第二个是学习生成的特征。作者的CNN架构是使用1D CNN层(256个滤波器和2个内核大小)构建的,然后是最大池化层(池化大小为2)。除了CNN架构,作者还评估了不同深度学习架构的性能,即RNN, Bi-LSTM和transformers。此外,在神经网络层之后添加了注意层,以观察其提高性能的潜力。首先,将序数编码输入到深度学习层,然后通过Dense层连接到其他手工特征。在最后阶段,添加另一个分类器来学习上述特征。作者还比较了有序列数据增强和没有序列数据增强的模型。所有的深度学习模型都训练了25个epoch。
在这里插入图片描述

5.3.3 集成模型

最终的模型包括两个模块:深度学习和机器学习。经过多次实验,最佳的深度学习模块包含两个通道:Bi-LSTM通道和CNN通道。
第一种途径是将肽序列输入序数编码层,然后进入Bi-LSTM通道。经过嵌入层和Bi-LSTM层后,输出为与手工制作的特征拼接并依次输入到dropout层和Dense层中。
在第二条途径上,有两个主要的区别。首先,采用另一种包含位置信息的编码方法,弥补了CNN模型不记忆顺序关系的不足;其次,在输入到CNN频道之前,连接了手工制作的特征。
第三步,将序列数据输入特征提取层,生成745维的手工特征。然后,将这些特征与序数编码特征进行拼接,输入到LightGBM模型中。
最后,将这三个模型的分类结果以相同的权重进行投票,在模型集成层中得到最终结果。
在这里插入图片描述

6.结果

6.1 机器学习模型的性能结果

在这里插入图片描述
在这里插入图片描述

6.2 深度学习模型的性能结果

6.2.1 卷积神经网络

在这里插入图片描述
在这里插入图片描述

6.2.2 循环神经网络

在这里插入图片描述
在这里插入图片描述

6.2.3 双向长短期记忆

在这里插入图片描述
在这里插入图片描述

6.3 集成模型的性能结果

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

7.结论

综上所述,作者所提出的最终模型的准确率为0.7895,与之前的研究相比,准确率提高了1.5%以上。此外,将深度学习模型与机器学习方法相结合,开辟了生物信息学建模的新途径。同时,简单地增加模型的复杂性会导致性能下降,有时简单的模型可以有更好的性能。此外,科学家将能够在未来的研究中利用我们的架构来处理acp的预测问题,从而促进生物信息学的进步。

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值