论文解读：《基于有序位置编码的深度学习和机器学习集成模型的抗癌肽预测》

最新推荐文章于 2024-06-13 09:54:20 发布

风灬陌

最新推荐文章于 2024-06-13 09:54:20 发布

阅读量1k

点赞数 1

分类专栏：深度学习生物信息学机器学习文章标签：深度学习机器学习生物信息学

原文链接：https://academic.oup.com/bib/article-abstract/24/1/bbac630/6987656?login=true

版权

生物信息学同时被 3 个专栏收录

53 篇文章 36 订阅

订阅专栏

深度学习

32 篇文章 3 订阅

订阅专栏

机器学习

10 篇文章 3 订阅

订阅专栏

论文解读：《Prediction of anticancer peptides based on an ensemble model of deep learning and machine learning using ordinal positional encoding》

1.文章概述
2. 关键点
3.背景
4.数据
5.方法
6.结果
7.结论

文章地址：https://academic.oup.com/bib/article-abstract/24/1/bbac630/6987656?login=true
DOI：https://doi.org/10.1093/bib/bbac630
期刊：BRIEFINGS IN BIOINFORMATICS
2022年影响因子/JCR分区：13.994/Q2
发布时间：2023年1月24日
Github： https://github.com/khanhlee/acp-ope/

1.文章概述

抗癌肽（Anticancer peptides，ACPs）是一类已被证明具有抗癌活性的肽。使用ACP来预防癌症可能是传统癌症治疗的可行替代方案，因为它们更安全，并显示出更高的选择性。针对ACP识别实验受限、成本高、耗时长的问题，所以作者提出了一种利用序列信息预测ACP的计算方法。该过程包括肽序列的输入，利用位置信息进行序列编码和手工特征提取，最后进行特征选择。整个模型由两个模块组成，包括深度学习和机器学习算法。深度学习模块包含两个通道：双向长短期记忆（BiLSTM）和卷积神经网络（CNN）。机器学习模块采用LightGBM。最后，作者针对得出模型集成层的三条路径，对三个模型的分类结果进行了投票。该研究为ACP预测提供了一种新的方法，并提供了一个有前景的性能。与以往的研究相比，本文使用了基准数据集进行进一步的探索和改进。最终模型的ACC为0.7895，SN为0.8153，SP为0.7676，与最先进的研究相比，在所有指标上至少提高了2%。

2. 关键点

采用带有位置信息的序列编码方法提取特征；
采用机器学习和深度学习相结合的方法构建模型；
与之前的模型相比，提出的方法在5倍交叉验证和独立测试方面都有显著的改进；
生物学家和科学家谁想进行研究抗癌肽有用的资源。

3.背景

癌症是一种致命的疾病，每年在全世界夺去数百万人的生命。癌症治疗是人类面临的一个严重的医学问题。近年来最常见的癌症治疗方法是放疗、化疗和靶向治疗。这些药物旨在杀死癌细胞，但它们也会破坏正常细胞。这些手术有明显的副作用，同时，对许多人来说是遥不可及的。
因此，抗癌肽的研究方向开始转向，ACPs与其他癌症疗法相比有几个优点。例如，它们似乎更安全，因为它们是天然的生物靶标。此外，由于其固有的阴离子性质，它们具有更好的选择性杀伤癌细胞，优先与癌细胞的阴离子生物膜部分连接。
多年来，ACPs疗法在各个临床阶段得到了广泛的研究和实施，但在临床治疗中应用的数量有限。尽管如此，计算预测方法在ACPs的筛选、发现和预测中正变得越来越重要。研究人员一直致力于开发一种更快、更便宜的方法来发现和识别新的ACPs。
在过去的十年里，大量的文章都集中在ACPs预测上。例如，Tyagi等人基于支持向量机（SVM）提出了AntiCP用于预测ACPs。hajishariifi等人也利用Chou的伪氨基酸组成(pseudo amino acid composition, PseAAC)和局部对齐核(local alignment kernel)结合SVM实现了对ACPs的高精度预测。Vijayakumar和Lakshmi基于氨基酸组成信息中心和分布指标的预测技术开发了ACPP。在二肽组合的帮助下，Chen等人基于二肽组合的提出了预测方法叫做iACP。Li和Wang等人用AAC、平均化学位移和降低的AAC表示来预测ACPs。Rao等人通过合并多视图数据来增加特征能力提出了ACPred-Fuse。近年来，深度神经网络在生物信息学领域显示出良好的应用前景，深度神经网络也被用于ACP的预测。例如，Yu等人检查了三种不同的深度学习架构，发现双向长短期记忆(BiLSTM)在ACP预测中表现良好。Ahmed等人利用并行卷积群学习并组合了三种不同的特征预测ACPs。
经过筛选，作者找到了四篇对我们的研究内容更有针对性和建设性的最新文章。Lv等人提出了一个使用深度表示学习特征的ACP预测器，本研究采用了两种序列嵌入策略，包括软对称对齐和统一表示嵌入；此外，Cao等人提出了一种基于多模态序列特征的双通道集成学习算法，第一个频道使用卷积神经网络(CNN)架构，第二个频道旨在提取最佳手工特征；Chen等人通过结合二元剖面和生化性质特征来描述肽序列，然后在高维空间中增加样本；Yi等人通过同化还原氨基酸字母的二进制剖面和K-mer稀疏矩阵，提出了一种充分利用肽序列信息的有效特征提取策略。
本工作的主要贡献如下：(1)提出了一种新的蛋白质序列编码方法，为类似的蛋白质学习问题提供了一种通用的解决方案；(2)提出了一种机器学习和深度学习的集成架构，以出色地捕捉蛋白质序列的特征；(3)提出了一种新的模型，其性能优于最新的预测器。

4.数据

为了便于后续比较，作者使用了与【Anticancer peptides prediction with deep representation learning features】论文中相同的数据集。该数据集包含1718个实验验证数据(包括859个ACP和859个非ACP)。其中ACP来自CancerPPD数据库，负样本来自抗菌肽。数据被分为两个子集用于训练（进行交叉验证）和独立的数据集。它们可以在AntiCP 2.0服务器上免费访问和下载。

5.方法

5.1 肽序列编码

5.1.1 顺序编码

将氨基酸分为21类，并像基准论文那样对它们进行编码。由于数据集中最长的序列是50，如果序列长度小于50，我们用0填充它。

5.1.2 顺序位置编码

作者设计了另一种添加位置信息的编码方法。每种氨基酸都是根据其在序列中的位置的种类编码。例如，序列ACD被转换为向量形式[[1]，[52]，[103]，[0]，[0]，…,[0]]。如果序列长度小于50，用零值填充它。这样，在编码中一定程度上加入了氨基酸的位置信息。利用这种思想，不仅使用氨基酸编码，还使用氨基酸在序列中的位置来训练模型。该编码方法可以显著提高CNN模型的性能。经过研究发现，带有位置信息的编码方法可以提高交叉验证的精度。
在这里插入图片描述

5.1.3 氨基酸组成（Amino acid composition，AAC）

在这里插入图片描述

5.1.4 二肽成分（Dipeptide composition，DPC）

在这里插入图片描述

5.1.5 k -间距氨基酸基对的组成（Composition of K-Spaced amino acid group pairs）

在这里插入图片描述

5.1.6 K-mer稀疏矩阵（K-mer sparse matrix）

在这里插入图片描述

5.2 特征选择

由于手工制作的特征总数超过700个，作者使用随机森林（RF）和光梯度增强机（LGBM）为深度学习模型选择重要的特征。将手工制作的特征和标签作为输入，随机森林和LGBM的内置函数可以获得特征的重要性，然后将这些特征按重要性排，通过使用不同数量的特征进行实验，作者发现它在选择大约150个特征时表现最佳。如果使用CNN架构，随机森林有助于建立比LGBM更好的特性。对于BiLSTM和循环神经网络(RNN)， LGBM选择的更好。最后，作者决定使用这两种方法，并根据它们在每种体系结构上的性能直接应用它们。

5.3 模型

5.3.1 机器学习

作者使用SVM, RF, XGBoost和LightGBM模型作为监督机器学习分类算法。将序数编码和其他手工特征连接在一起，作为机器学习模型的输入。所有机器学习模型都经过超参数调优来找到最优参数。
在这里插入图片描述

5.3.2 深度学习

作者提出一种基于双通道思想的深度学习架构。第一个通道是CNN，用于提取序列的深层特征；第二个是学习生成的特征。作者的CNN架构是使用1D CNN层(256个滤波器和2个内核大小)构建的，然后是最大池化层(池化大小为2)。除了CNN架构，作者还评估了不同深度学习架构的性能，即RNN, Bi-LSTM和transformers。此外，在神经网络层之后添加了注意层，以观察其提高性能的潜力。首先，将序数编码输入到深度学习层，然后通过Dense层连接到其他手工特征。在最后阶段，添加另一个分类器来学习上述特征。作者还比较了有序列数据增强和没有序列数据增强的模型。所有的深度学习模型都训练了25个epoch。
在这里插入图片描述

5.3.3 集成模型

最终的模型包括两个模块:深度学习和机器学习。经过多次实验，最佳的深度学习模块包含两个通道：Bi-LSTM通道和CNN通道。
第一种途径是将肽序列输入序数编码层，然后进入Bi-LSTM通道。经过嵌入层和Bi-LSTM层后，输出为与手工制作的特征拼接并依次输入到dropout层和Dense层中。
在第二条途径上，有两个主要的区别。首先，采用另一种包含位置信息的编码方法，弥补了CNN模型不记忆顺序关系的不足；其次，在输入到CNN频道之前，连接了手工制作的特征。
第三步，将序列数据输入特征提取层，生成745维的手工特征。然后，将这些特征与序数编码特征进行拼接，输入到LightGBM模型中。
最后，将这三个模型的分类结果以相同的权重进行投票，在模型集成层中得到最终结果。
在这里插入图片描述

6.结果

6.1 机器学习模型的性能结果

在这里插入图片描述

6.2 深度学习模型的性能结果

6.2.1 卷积神经网络

在这里插入图片描述

6.2.2 循环神经网络

在这里插入图片描述

6.2.3 双向长短期记忆

在这里插入图片描述

6.3 集成模型的性能结果

在这里插入图片描述

7.结论

综上所述，作者所提出的最终模型的准确率为0.7895，与之前的研究相比，准确率提高了1.5%以上。此外，将深度学习模型与机器学习方法相结合，开辟了生物信息学建模的新途径。同时，简单地增加模型的复杂性会导致性能下降，有时简单的模型可以有更好的性能。此外，科学家将能够在未来的研究中利用我们的架构来处理acp的预测问题，从而促进生物信息学的进步。

风灬陌

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
论文解读：《基于有序位置编码的深度学习和机器学习集成模型的抗癌肽预测》

抗癌肽（ACPs）是一类已被证明具有抗癌活性的肽。使用ACP来预防癌症可能是传统癌症治疗的可行替代方案，因为它们更安全，并显示出更高的选择性。作者提出了一种利用序列信息预测ACP的计算方法。该过程包括肽序列的输入，利用位置信息进行序列编码和手工特征提取，最后进行特征选择。整个模型由两个模块组成，包括深度学习和机器学习算法。深度学习模块包含两个通道：BiLSTM和CNN。最后，作者针对得出模型集成层的三条路径，对三个模型的分类结果进行了投票。该研究为ACP预测提供了一种新的方法，并提供了一个有前景的性能。
复制链接

扫一扫