【大模型多肽发现、学习笔记】AI4AMP——预测AMP的深度学习工具

文献链接:https://journals.asm.org/doi/10.1128/mSystems.00299-21

doi:10.1128/mSystems.00299-21

摘要

AMPs(Antimicrobial Peptides)潜在的抗菌特性近期受到了广大药物发现领域的学者的高度关注。然而,使用湿实验(wet-lab)筛选方法研发AMP的低效性和高花费是一个严峻的问题。因此,作者结合优秀的AMP数据集和深度学习开发了一种蛋白质编码方法,AI4AMP,它可以根据给定蛋白质序列预测AMP并且对蛋白质组进行筛选。


数据集

文章工作中使用了4个databases——APD3、LAMP、CAMP3和DRAMP。除去含有非常规氨基酸和长度短于10aa的,再筛选出重复的后,总共获得了6623个肽序列。对于non-AMP数据,其主要由真实世界中的肽(取自UniProt database)和人工合成的肽序列组成,最终也是获得了6623个肽序列。


实验方法

一、PC6编码方案

其核心是对每一个氨基酸的相关物理化学特性进行词嵌入(word embedding),得到一个矩阵,它每一行代表一个氨基酸的6个物理化学特征的值(经过归一化处理后的)。同时还使用6个值都为0的“X”做填充(padding)。最终得到一个200×6的矩阵(如下图A)。

补充说明,本文使用的6个化学特征分别为

  • hydrophobicity(H1)
  • the volume of side chains(V)
  • Polarity(Pl)
  • pH at the isoelectric point(pI)
  • the dissociation constant for the COOH group(pKa)
  • the net charge index of the side chain(NCI)

二、深度神经网络模型

本文的模型为NLP模型,由一层CNN、一层LSTM和一层全连接层组成(如上图B)。CNN层使用了64个包含16单元的过滤器(filter),然后使用矫正的线性激活函数接入LSTM。这里还使用Adam优化器,其学习率为0.0003。

三、模型评估

本文工作使用的评估指标为Accuracy、Precision、Sensitivity、Specificity、F1 score和MCC(Matthew correlation coefficient)。

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值