doi:10.1109/ICRITO48877.2020.9198006
摘要
AMPs(Anti-Microbial Peptides)是有机生物天生就可以产生的用于抵抗真菌(fungi)、细菌、病毒和其他病原体(pathogens)的一类多肽。如下图,这些多肽的氨基酸序列可以用一系列英文字母来表示,然后作为NLP(natural language processing)模型的输入来预测多种特性。此文将介绍一种NLP-DL的方法,其把这些英文表示的氨基酸序列切分成K-mers(K=2,3,4),来作为模型的输入预测特征,最终对来自三个物种(动物、植物和细菌)的AMP序列做分类。
数据集
本文主要使用的数据集有APD(Anti Microbial Peptide Database)。此数据集包含了来自6个物种的共3160条AMP序列。本次工作使用了其中的2342条动物、352条植物和349条细菌类的AMP序列,据统计,平均AMP序列长度为33.30个氨基酸,标准偏差为22.01个氨基酸。
CNN模型
本文使用的模型是一种常见基于CNN的模型,组成顺序如下图所示,
- 输入层为Keras Embedding Layer(size=100×100),使用的词表大小为1001。
- 1-D卷积层,卷积核size=128×5,激活函数为ReLU。其为后面分类工作提供特征图。
- 1-D的Max池化层,从128个特征中的96个值的池化窗口中获取最大值。
- 2层全连接层,第一层使用ReLU函数降维至10,第二层使用Softmax降维至3(即对应3类物种)。
实验
训练集:验证集=80:20,在经历10个epochs的实验测试可得2-mers、3-mers、4-mers分别在3、3、2个epochs后停止训练模型可以防止过拟合(overfitting)。
对于模型在动物、植物和细菌的AMP序列分类的任务,本文使用了Precision、Recall和F-1分数来进行评估,评估结果如下图。结果表示本CNN模型对动物分类的效果最好,主要原因是数据集对于三物种不是均匀分布的。但总而言之,此模型也还是在这种情况下表现得很好。