【大模型多肽发现、学习笔记】CNN模型——对AMP序列的K-mer分析

文献连接:A CNN-Based K-Mer Classification of Anti-Microbial Peptide Sequences | IEEE Conference Publication | IEEE Xplore

doi:10.1109/ICRITO48877.2020.9198006

摘要

AMPs(Anti-Microbial Peptides)是有机生物天生就可以产生的用于抵抗真菌(fungi)、细菌、病毒和其他病原体(pathogens)的一类多肽。如下图,这些多肽的氨基酸序列可以用一系列英文字母来表示,然后作为NLP(natural language processing)模型的输入来预测多种特性。此文将介绍一种NLP-DL的方法,其把这些英文表示的氨基酸序列切分成K-mers(K=2,3,4),来作为模型的输入预测特征,最终对来自三个物种(动物、植物和细菌)的AMP序列做分类。


数据集

本文主要使用的数据集有APD(Anti Microbial Peptide Database)。此数据集包含了来自6个物种的共3160条AMP序列。本次工作使用了其中的2342条动物、352条植物和349条细菌类的AMP序列,据统计,平均AMP序列长度为33.30个氨基酸,标准偏差为22.01个氨基酸。


CNN模型

本文使用的模型是一种常见基于CNN的模型,组成顺序如下图所示,

  • 输入层为Keras Embedding Layer(size=100×100),使用的词表大小为1001。
  • 1-D卷积层,卷积核size=128×5,激活函数为ReLU。其为后面分类工作提供特征图。
  • 1-D的Max池化层,从128个特征中的96个值的池化窗口中获取最大值。
  • 2层全连接层,第一层使用ReLU函数降维至10,第二层使用Softmax降维至3(即对应3类物种)。


实验

 训练集:验证集=80:20,在经历10个epochs的实验测试可得2-mers、3-mers、4-mers分别在3、3、2个epochs后停止训练模型可以防止过拟合(overfitting)。

对于模型在动物、植物和细菌的AMP序列分类的任务,本文使用了Precision、Recall和F-1分数来进行评估,评估结果如下图。结果表示本CNN模型对动物分类的效果最好,主要原因是数据集对于三物种不是均匀分布的。但总而言之,此模型也还是在这种情况下表现得很好。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值