论文解读：ExamPle:用于预测植物小分泌肽的可解释的深度学习框架

本文链接：https://blog.csdn.net/qq_41909775/article/details/131185702

ExamPle: explainable deep learning framework for the prediction of plant small secreted peptides

期刊：Bioinformatics

影响因子：6.931

中科院分区：小类数学与计算生物2区

出版日期：2023年3月10日

Github:https://github.com/Johnsunnn/ExamPle

摘要

植物小分泌肽(SSPs)在植物生长发育和植物与微生物相互作用中起着重要作用。在过去的几十年里，基于机器学习的方法得到了发展，然而，现有方法高度依赖手工特征工程，容易忽略潜在的特征表示，影响预测性能。

在这里，我们提出了一个新的深度学习模型，使用Siamese网络（Siamese network）和多视图表示（multi-view representation）来预测植物ssps的可解释性。基准比较结果表明，我们的示例在植物ssps预测方面的性能明显优于现有方法。同时，我们的模型也表现出了出色的特征提取能力。重要的是，通过利用硅诱变（silico mutagenesis）实验，ExamPle可以发现序列特征并确定每个氨基酸对预测的贡献。我们的模型学到的关键新原理是肽的头部区域和一些特定的序列模式与ssps的功能密切相关。因此，该方法有望成为预测植物ssps和设计有效植物ssps的有效工具。

数据集

植物SSPs数据集:我们从MtSSPdb (Boschiero et al . 2020)中收集植物ssps数据集的阳性样本。MtSSPdb是一个综合性的数据库，包含在模式豆科植物紫花苜蓿中发现的植物ssp。在阴性样本中，我们发现了两个非分泌肽家族CYSTM和DVL (Butenko et al . 2009;Xu et al . 2018);之后，我们搜索非ssp序列并从Pfam数据库下载，该数据库是一个蛋白质家族的大型集合(Mistry et al 2021)。之后，我们使用CD-Hit (Li和Godzik, 2006)将数据集中序列的相似性降低到20%。此外，正负样本平衡的数据集通常有利于深度学习模型的训练过程。因此，我们从两个数据库中获取相同数量的阳性和阴性样本。按照上述步骤，我们得到了植物ssp数据集，包括1184个植物分泌肽和1184个植物非分泌肽。将数据集按80%和20%的比例分别划分为训练和测试数据集。

肽二级结构:在本研究中，我们使用PHAT web界面生成肽二级结构。PHAT由Jiang等人(2023)提出。PHAT是一种用于预测肽二级结构的新型深度学习框架。PHAT利用强大的预训练蛋白语言模型和一种新型的超图多头注意网络，不仅可以将语义知识从大尺度蛋白质转移到多肽，学习多肽残基的高潜伏和长期特征，还可以对多肽残基进行多语义二级结构信息编码，同时利用多层次注意机制捕获连续区域的上下文特征。此外，PHAT具有交互式、无代码和非编程的web界面。我们使用PHAT web界面获取预测的肽的3态二级结构，然后将3态二级结构信息添加到植物ssp数据集中。