【大模型多肽发现、学习笔记】AMP识别及多活性预测——TransImbAMP

XANTAR____RES

已于 2023-06-08 15:02:26 修改

阅读量1.2k

点赞数 3

文章标签：人工智能深度学习

于 2023-06-07 20:27:36 首次发布

本文链接：https://blog.csdn.net/XANTAR____RES/article/details/131054769

版权

文章提出TransImbAMP模型，利用Transformer的预训练能力和ASL策略处理数据不平衡，高效识别AMP并预测其抗菌活性。模型在AMP分类和多标签预测上表现出色，尤其在处理不平衡数据集时改善了预测准确性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

文献链接：Integrating transformer and imbalanced multi-label learning to identify antimicrobial peptides and their functional activities | Bioinformatics | Oxford Academic

摘要

AMP（Antimicrobial Peptide）是目前针对多种病原体引发症状治疗和治愈感染的潜在药物之一。基于AMP的计算科学方法可以从蛋白组和合成序列数据中分类出哪些是新的AMP，并低成本地预测出AMP对于不同菌类靶向的抗菌特性。

本文中，作者提出的模型结合Transformer网络和NLP知识来提取肽序列信息。模型任务有两个：1）从大量未知肽中识别出AMP；2）预测AMP针对7种目标（革兰氏阴性细菌、革兰氏阳性细菌、真菌、病毒、癌细胞、寄生虫和哺乳动物细胞抑制）的抗菌活性，即多标签预测任务。同时，文中采用非对称损失解决数据集的不平衡性（尤其是多标签预测任务）。结果得出此模型在第一个任务中表现非凡，达到96.85%的平衡查准率（Balanced Accuracy）；在第二个任务中对比其他没有解决不平衡性的方法具有更好的无偏差预测（对于7个目标平均79.83%平衡查准率）。

简单介绍

AMPs，又称为后抗生素，是源自生物体的短氨基酸序列。AMP能够穿透膜与目标微生物的膜蛋白作用。新AMP的发现也促进了一些有关AMP的平台和数据库，AMP相关库可以提供丰富的信息，有助于研究人员分析其作用机制，例如：

dbAMP，从3044类生物物种中收集了26447个AMP和2262个抗菌蛋白；
DRAMP，含有22259个条目，近期新增了2k多新条目；
LAMP，提供与其他AMP数据库的交叉连接作为代理，便于访问不同的特征属性；
AVPdb，包含超过2683中抗病毒肽，靶向约60种常见病毒；
CancerPPD，其包含了抗癌肽和蛋白质的序列数据；
Hemolytik database（溶血数据库），含有实验验证的溶血肽和非溶血肽。

本文提出了一种AMP预测模型，TransImbAMP。其使用Transformer结构及从一个大型氨基酸序列集获得的transferred knowledge，来编码肽信息。同时使用了一个不平衡学习策略来解决严重的类不平衡问题。

一、数据集

本文的数据集主要由AMP和non-AMP组成。AMPs主要从dbAMP、DRAMP和DBAASP中获取，同时为提高数据集质量还从具有特定靶标域（specific target domains）的数据集中获取AMPs，如AVPdb、AntiCP和AntiFP。non-AMPs则是从UniProt中获取，以特定（见原文）标准进行筛选获得。获得数据集后，为了消除AMP和non-AMP数据不平衡问题，使用CD-HIT以40%为阈值筛选了non-AMP数据，最终获得由6460 AMPs和15921 non-AMPs组成的数据集。

二、模型

本文中的模型如下图所示。backbone为pre-trained BERT结构，其Transformer主要用于获取肽序列中所有可能的氨基酸对的内在联系来优化表征。pre-trained过程是基于Pfam dataset数据集，以15%的部分被掩盖（masked token）序列和剩余的未被掩盖（unmasked token）序列来预训练backbone，然后还使用未标记的序列数据来提高backbone对氨基酸序列的预测能力。backbone后面紧接两层Neural Network做下游任务（downstream），来完成前面提到的两项任务（分类和多标签预测）。fine-tuning过程中，不改变backbone参数，只优化两层NN。

三、多标签预测的不平衡问题处理

为解决类不平衡问题，本文采用一种名为ASL（asymmetric loss） strategy来替代传统的交叉熵，其公式如下：

ASL strategy相较于交叉熵在两个方面进行了升级：1）asymmetric focusing，它可以降低容易分类的AMP和non-AMP的权重，使模型更加注重于难分类的数据；2）probability shifting，它直接把预测概率<t（给定阈值）的数据的值重置成0，即把这些数据的贡献去除，使模型更加注重于难分类的样本。

总结

本文作者利用基于深度学习的技术开发了一种计算AMP识别方法。该方法将预训练的变压器结构与ASL相结合，解决了AMP数据集中固有的数据不平衡问题，提高了预测性能。不同病原体靶点和毒性的功能活性是发现新型抗菌肽的重要特性。因此，我们采用该模型鉴定amp并预测其与7种不同微生物相关的可能靶点。评价结果证实了该模型解决数据不平衡问题的能力，并改善了AMP序列预测的编码表示。我们相信，将基于迁移学习的变压器结构和不平衡学习技术相结合的方案可以广泛应用于其他生物序列分析问题。