【大模型多肽发现、学习笔记】CNN模型——对AMP序列的K-mer分析

XANTAR____RES

已于 2023-05-17 18:13:00 修改

阅读量211

点赞数

分类专栏：结构预测 AMP 文章标签：人工智能自然语言处理卷积神经网络深度学习

于 2023-05-14 10:58:28 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/XANTAR____RES/article/details/130665784

版权

AMP 同时被 2 个专栏收录

6 篇文章 2 订阅

订阅专栏

3 篇文章 0 订阅

订阅专栏

文献连接：A CNN-Based K-Mer Classification of Anti-Microbial Peptide Sequences | IEEE Conference Publication | IEEE Xplore

doi：10.1109/ICRITO48877.2020.9198006

摘要

AMPs（Anti-Microbial Peptides）是有机生物天生就可以产生的用于抵抗真菌（fungi）、细菌、病毒和其他病原体（pathogens）的一类多肽。如下图，这些多肽的氨基酸序列可以用一系列英文字母来表示，然后作为NLP（natural language processing）模型的输入来预测多种特性。此文将介绍一种NLP-DL的方法，其把这些英文表示的氨基酸序列切分成K-mers（K=2,3,4），来作为模型的输入预测特征，最终对来自三个物种（动物、植物和细菌）的AMP序列做分类。

数据集

本文主要使用的数据集有APD（Anti Microbial Peptide Database）。此数据集包含了来自6个物种的共3160条AMP序列。本次工作使用了其中的2342条动物、352条植物和349条细菌类的AMP序列，据统计，平均AMP序列长度为33.30个氨基酸，标准偏差为22.01个氨基酸。

CNN模型

本文使用的模型是一种常见基于CNN的模型，组成顺序如下图所示，

输入层为Keras Embedding Layer（size=100×100），使用的词表大小为1001。
1-D卷积层，卷积核size=128×5，激活函数为ReLU。其为后面分类工作提供特征图。
1-D的Max池化层，从128个特征中的96个值的池化窗口中获取最大值。
2层全连接层，第一层使用ReLU函数降维至10，第二层使用Softmax降维至3（即对应3类物种）。

实验

训练集：验证集=80：20，在经历10个epochs的实验测试可得2-mers、3-mers、4-mers分别在3、3、2个epochs后停止训练模型可以防止过拟合（overfitting）。

对于模型在动物、植物和细菌的AMP序列分类的任务，本文使用了Precision、Recall和F-1分数来进行评估，评估结果如下图。结果表示本CNN模型对动物分类的效果最好，主要原因是数据集对于三物种不是均匀分布的。但总而言之，此模型也还是在这种情况下表现得很好。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
2
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

XANTAR____RES CSDN认证博客专家 CSDN认证企业博客

码龄3年

16: 原创

130万+: 周排名

24万+: 总排名

5122: 访问

: 等级

199: 积分

30: 粉丝

36: 获赞

10: 评论

34: 收藏

私信

关注

热门文章

分类专栏

抗体设计 2篇
生成 3篇
GNN 2篇
分子性质预测 1篇
AMP 6篇
结构预测 3篇
ACP（AMP） 1篇
AVP 1篇

最新评论

FAENet | 面向材料建模的EGNN模型
CSDN-Ada助手: 恭喜您发布了第15篇博客！您对于FAENet面向材料建模的EGNN模型的深入探讨让我受益匪浅。希望您能继续分享关于材料建模方面的研究成果，或许可以考虑探讨一些实际应用案例，让更多读者能够从中受益。期待您的下一篇作品！
3D Infomax | 改进GNN + 分子性质预测
CSDN-Ada助手: 恭喜你写了第14篇博客！标题中的3D Infomax和改进GNN的技术引起了我的兴趣。你对分子性质预测的研究能够为科学界做出重要贡献。不过，我希望在下一篇博客中能够更多地了解你的实验设计和结果分析，这样我们可以更深入地理解你的研究成果。希望你能继续保持创作的势头，期待看到你的下一个博客！
【强相关文献】CSM-Toxin，网站，可预测蛋白毒性
CSDN-Ada助手: 恭喜您写作了第9篇博客，题目非常吸引人！您的博客内容关于CSM-Toxin的预测蛋白毒性网站，似乎与最新的相关文献有着紧密的联系。这显示了您对当前领域的深入研究和了解。希望您能继续保持这种积极的创作状态，并继续分享您的见解和发现。接下来，或许您可以考虑加入一些对于这个网站的具体使用方法或者对于该领域未来发展的展望等内容，这将为读者提供更多有价值的信息。希望我的建议对您有所帮助，期待您的下一篇博客！
【大模型多肽发现、学习笔记】基于序列多维特征嵌入的AMP预测方法
CSDN-Ada助手: 恭喜您撰写了第10篇博客！您的标题“【大模型多肽发现、学习笔记】基于序列多维特征嵌入的AMP预测方法”非常引人注目。通过这篇博客，您分享了关于AMP预测方法的学习笔记，深入探讨了基于序列多维特征嵌入的方法。这是一个非常有价值的主题，我从中学到了很多知识。在评论中，我想鼓励您继续保持创作，并分享更多相关主题的博客。您的文章对于我们这些对AMP预测方法感兴趣的读者来说有着重要的指导意义。我期待着您未来更多关于多肽发现和学习笔记的分享，尤其是在大模型方面的应用。谦虚地说，您对这个领域的理解和经验将为我们带来更多新的视角和启发。再次祝贺您取得的成就，并期待您未来的创作！
【大模型多肽发现、学习笔记】AI4AMP——预测AMP的深度学习工具
CSDN-Ada助手: 非常感谢用户的持续创作，这篇关于AI4AMP的学习笔记非常有启发性。恭喜用户在探索大模型多肽发现方面的进步，同时也感谢用户分享这个预测AMP的深度学习工具。建议用户在接下来的创作中，可以进一步探索该工具的优缺点，并分享一些应用案例或实验结果，让读者更直观地了解该工具的使用场景和效果。期待用户更多的创作，为学界贡献更多有价值的研究成果。如何快速涨粉，请看该博主的分享：https://hope-wisdom.blog.csdn.net/article/details/130544967?utm_source=csdn_ai_ada_blog_reply5

大家在看

最新文章

目录

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。