【大模型多肽发现、学习笔记】AMPlify——预测AMP的深度学习工具

XANTAR____RES

已于 2023-06-01 15:36:41 修改

阅读量243

点赞数

分类专栏： AMP 文章标签：深度学习人工智能

于 2023-05-23 16:16:16 首次发布

本文链接：https://blog.csdn.net/XANTAR____RES/article/details/130827749

版权

AMP 专栏收录该内容

6 篇文章 2 订阅

订阅专栏

文献链接：Models and data of AMPlify: a deep learning tool for antimicrobial peptide prediction | BMC Research Notes | Full Text

摘要

由于耐药性细菌的不断出现危害到了人类健康，现在急需一种能替代传统抗生素的药物（比如AMPs）。本文作者推出了一种基于深度学习的模型，AMPlify，其在预测AMP任务中表现突出，而且优于现有的SOTA 算法。在本文的工作中，作者训练了两个模型，一种是基于平衡数据集的，而另一种是基于非平衡数据集的。结果得出两个模型可以服务于不同的场景，且都可以促进新AMP发现的研究。

数据集

本文中使用的所有AMPs都来自两个数据集，即Antimicrobial Peptide Database（APD3，http://aps.unmc.edu/AP）和Database of Anuran Defense Peptides（DADP，DADP）。此外，本文使用的non-AMP的序列数据取样于UniPritKB/Swiss-Prot（UniProt）。数据集处理如下图。

模型

本文作者构建了两个模型，且都由5个子模型基于各自的子数据集训练，最后集合成最终模型。两个模型都是基于基础的AMPlify模型，其结构如下图所示。首先，使用Bi-LSTM网络对输入序列以循环的方式编码其位置信息。然后，multi-head scaled dot-product attention（MHSDPA）层使用多种权重向量计算出一个改进后的序列表征。最后，context attention层使用权重平均来生成一个单总结向量（single summary vector），其学习了前面层的上下文信息。

不足之处

由于AMP研究领域的相关AMP序列信息相比其他Deep Learning研究领域来说较少，所以本文的预测模型还有一定提升空间。其次，本文收集的non-AMP数据存在一定瑕疵，因为虽然工作中是按关键词在Swiss-Prot数据库中进行筛选，但仍有一小部分non-AMP数据是具有Antimicrobial特性的，所以作者提出可以在训练模型任务中加入噪声进一步优化模型。