论文解读:ExamPle:用于预测植物小分泌肽的可解释的深度学习框架

ExamPle: explainable deep learning framework for the prediction of plant small secreted peptides

期刊:Bioinformatics

影响因子:6.931

中科院分区:小类数学与计算生物2区

出版日期:2023年3月10日

Github:https://github.com/Johnsunnn/ExamPle


摘要

植物小分泌肽(SSPs)在植物生长发育和植物与微生物相互作用中起着重要作用。在过去的几十年里,基于机器学习的方法得到了发展,然而,现有方法高度依赖手工特征工程,容易忽略潜在的特征表示,影响预测性能。

 在这里,我们提出了一个新的深度学习模型,使用Siamese网络(Siamese network)和多视图表示(multi-view representation)来预测植物ssps的可解释性。基准比较结果表明,我们的示例在植物ssps预测方面的性能明显优于现有方法。同时,我们的模型也表现出了出色的特征提取能力。重要的是,通过利用硅诱变(silico mutagenesis)实验,ExamPle可以发现序列特征并确定每个氨基酸对预测的贡献。我们的模型学到的关键新原理是肽的头部区域和一些特定的序列模式与ssps的功能密切相关。因此,该方法有望成为预测植物ssps和设计有效植物ssps的有效工具。

数据集

植物SSPs数据集:我们从MtSSPdb (Boschiero et al . 2020)中收集植物ssps数据集的阳性样本。MtSSPdb是一个综合性的数据库,包含在模式豆科植物紫花苜蓿中发现的植物ssp。在阴性样本中,我们发现了两个非分泌肽家族CYSTM和DVL (Butenko et al . 2009;Xu et al . 2018);之后,我们搜索非ssp序列并从Pfam数据库下载,该数据库是一个蛋白质家族的大型集合(Mistry et al 2021)。之后,我们使用CD-Hit (Li和Godzik, 2006)将数据集中序列的相似性降低到20%。此外,正负样本平衡的数据集通常有利于深度学习模型的训练过程。因此,我们从两个数据库中获取相同数量的阳性和阴性样本。按照上述步骤,我们得到了植物ssp数据集,包括1184个植物分泌肽和1184个植物非分泌肽。将数据集按80%和20%的比例分别划分为训练和测试数据集。

肽二级结构:在本研究中,我们使用PHAT web界面生成肽二级结构。PHAT由Jiang等人(2023)提出。PHAT是一种用于预测肽二级结构的新型深度学习框架。PHAT利用强大的预训练蛋白语言模型和一种新型的超图多头注意网络,不仅可以将语义知识从大尺度蛋白质转移到多肽,学习多肽残基的高潜伏和长期特征,还可以对多肽残基进行多语义二级结构信息编码,同时利用多层次注意机制捕获连续区域的上下文特征。此外,PHAT具有交互式、无代码和非编程的web界面。我们使用PHAT web界面获取预测的肽的3态二级结构,然后将3态二级结构信息添加到植物ssp数据集中。

方法

框架概述

本文提出了一种基于两个Transformer和两个Bi-GRU结构和Siamese网络的预测框架,该框架融合了多肽序列和二级结构信息来预测植物ssps。我们的框架架构如图1所示,包括B(i)对比学习和基于变压器的双暹罗网络和B(ii)特征融合和分类。

首先,在B(i)中,我们将植物ssp序列及其二级结构输入到基于双变压器的Siames

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值