【大模型多肽发现、学习笔记】使用预训练语言模型做embedding的AMP预测方法——LMPred

文章介绍了LMPred,一种结合预训练语言模型(如BERT,T5,XLNet)和CNN进行抗微生物肽预测的方法。该方法在Veltridataset和LMPreddataset上表现优秀,优于现有最佳分类模型。预训练模型在不同数据集上训练,然后通过CNN进行分类,表明NLP技术在生物信息学领域的潜力。
摘要由CSDN通过智能技术生成

文献链接:LMPred: predicting antimicrobial peptides using pre-trained language models and deep learning | Bioinformatics Advances | Oxford Academic

代码(基于Jupyter):https://github.com/williamdee1/LMPred_AMP_Prediction/tree/main

摘要

基于目前AMP是潜在的癌症治疗和高血压治疗的新药,同时新AMP的发现能够缓解耐药细菌问题,而常规的湿实验周期长、开销大,因此开发一种计算方法是解决这一问题的有效方式。本文作者提出一种新的AMP预测方法——LMPred,它由一个预训练好的语言模型(用于embedding)和CNN分类器(用于预测)组成,且在不同的数据集上取得了很高的预测精确度,同时优于目前最优秀的分类模型。


数据集

文中使用了两个数据集——Veltri dataset和LMPred dataset。Veltri dataset由1778个AMP和1778个non-AMP组成Antimicrobial Peptide Scanner;LMPred dataset由Veltri和Bhadra等人使用的数据集以及DRAMP 2.0 database组成,通过一定的筛选后最终获得3758AMPs。non-AMP则是通过使用前人文章中的以及UniProt database中的,通过筛选以及匹配AMP数据序列长度分布,最终也是得到3758个non-AMP。


模型

本文的LMPred方法结构分为两部分:pre-trained language model和CNN。

主要介绍一下language model(LM)。本文使用了三种在特定数据集上预训练好的语言模型——BERT、T5(Text-to-Text Transfer Transformer)和XLNet。它们分别在UniRef100、UniRef50和Big Fat Databse数据集上进行预训练,最终得到5组预训练模型:BERT、BERT BFD、T5XL_UNI、T5XL_BFD和XLNET。下面是对输入序列进行embedding操作的实例,

 CNN分类器为每个LM设计了两种,但通过实验测试后发现两者最大差距仅1.47%。所有分类器中表现最好的模型为基于UniRef50预训练的T5,如下图所示,

 


总结

这篇文章提出了在AMP预测中一种新的序列输入预处理方法。通过使用预训练的LM模型embedding,最终使得分类任务优于目前已知的最优秀的方法。本文的结果也进一步的论证了NLP模型可以很好地应用到语言任务场景。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值