【无标题】Deep AVPpred:人工智能驱动的病毒感染多肽药物的发现

《Deep-AVPpred: Artificial intelligence driven discovery of peptide drugs for viral infections》

单位: 印度瓦拉纳西州BHU印度理工学院计算机科学与工程系

  • 作者: Ritesh Sharma, Sameer Shrivastava, Sanjay Kumar Singh, Senior Member, IEEE, Abhinav Kumar,Amit Kumar Singh, Senior Member, IEEE, and Sonal Saxena
  • 发表时间:2021 年 11 月 25 日
  • 发表期刊: IEEE Journal of Biomedical and Health Informatics
    在这里插入图片描述

paperhttps://ieeexplore.ieee.org/abstract/document/9627580

webhttps://deep-avppred.anvil.app/

Abstract

病毒迅速增加暴发导致病毒疾病在不同物种和地理边界之间传播。人畜共患病2019冠状病毒疾病已经极大地影响了人类的福祉,而COVID-19流行病就是一个燃烧的例子。现有的抗病毒药物疗效低副作用严重毒性高,市场供应有限。因此,人们对天然物质进行了抗病毒活性测试抗病毒肽(AVPs)等宿主防御分子存在于动植物中,保护它们免受病毒入侵。然而,从天然来源获取AVP用于制备合成肽药物既昂贵又耗时。因此,需要一个insilico模型来识别新的AVP。我们提出了Deep-AVPpred,这是一种用于发现蛋白质序列中AVP的深度学习分类器,它利用了迁移学习的概念和深度学习算法。该分类器的性能优于现有的分类器,在验证集和测试集上分别达到了约94%和93%的精度。高精度表明,Deep-AVPpred可用于提出新的AVP用于合成和实验。通过利用深度AVPpred,我们在人类干扰素-α家族蛋白中发现了新的AVP。这些AVP可以化学合成,并通过实验验证其对不同病毒的抗病毒活性。DeepAVPpred部署为web服务器,可在https://deep-avppred.anvil.app/,可用于预测新的AVP,用于开发用于人类和兽医的抗病毒化合物。

索引项:抗病毒肽,2019冠状病毒,深度学习,迁移学习,干扰素,人畜共患病病毒

I. INTRODUCTION

在过去40年中,世界上出现了许多病毒暴发,包括1981年的艾滋病毒、2002年的SARS-CoV、2009年的H1N1流感病毒、2012年的MERS-CoV、2013年的埃博拉病毒和2019年的SARS-CoV-2。这种频繁出现和再次出现的病毒暴发严重影响了人类的福祉,并对生命和财产造成了重大的损失。。由于常用抗病毒药物的市场供应有限、严重副作用高毒性,控制病毒性疾病具有挑战性。

因此,许多天然化合物都经过了抗病毒活性测试。抗病毒肽(AVPs)天然存在于动植物中,在杀死入侵病毒方面发挥着重要作用。这些AVP的抗病毒作用机制包括:(1)抑制病毒附着在宿主细胞受体上。(2) 防止病毒与宿主细胞共受体相互作用。(3) 抑制病毒包膜与宿主细胞膜的融合。(4) 通过与病毒核酸相互作用抑制病毒复制。(5) 参与某些病毒蛋白质的翻译后修饰过程;(6)干扰病毒颗粒组装。大多数AVP通过上述机制(单独或联合)降低病毒载量。与常用的抗病毒药物相比,AVP有很多好处,比如它们是天然的,可以通过多种方式杀死病毒,副作用较小,对宿主细胞的毒性较小。因此,AVPs作为传统化学抗病毒药物的替代品,最近受到了广泛关注。尽管各种生物都会产生AVP,但从自然资源中寻找有效的AVP既耗时又昂贵。因此,有必要开发一种电子工具来发现蛋白质序列中新的AVPs。

诸如AVPpred、IAMPRED、MetaiAVP、AVPIden、ENNAVIA等分类器在文献中可用作网络服务器,可用于从自然来源识别AVP。这些分类器利用了机器学习算法和人工神经网络的各种手工特征。随着时间和技术的进步,大量的AVP现在可以在数据库中使用,使我们能够应用深度学习算法。与机器学习相比,深度学习算法具有以下几个优点:(i)深度学习算法可以自动从数据中提取最佳特征消除我们对领域专家依赖。(ii)深度学习提取的特征通常优于手工制作的特征。因此,深度学习算法通常优于机器学习算法。(iii)迁移学习的概念很容易适用于深度学习算法,这使他们能够利用从之前任务中获得的知识来提高绩效。此外,深度学习模型已经在各种应用中证明了它们的能力。

因此,在本文中,我们提出了Deep-AVPpred,这是一种结合迁移学习和深度学习的深度学习算法。该模型采用一维卷积神经网络,利用不同尺度的多个核,迁移学习的概念通过预训练嵌入实现。[20]中的作者通过以无监督的方式对UniRef50中数百万蛋白质序列的33层变换器模型进行训练,获得了这些预训练的嵌入。

我们比较了将提出的模型(Deep-A VPpred)与现有模型(A VPpred、IAMPRED、Meta iA VP、A VPIden、ENNA VIA)的性能进行了比较,发现其性能优于其他模型,在验证集和测试集上分别达到了约94%和93%的精度。Deep-A VPpred 实验表明,高精度的Deep-A VPpred 可以用于深部合成。干扰素在人类和其他脊椎动物中起着宿主防御蛋白的作用,以抵御入侵的病毒。因此,我们利用我们提出的模型,在属于人类干扰素-α家族的12种抗病毒蛋白质中发现了新的VPs。基于特定的选择标准,我们从每个干扰素蛋白质中提出一个AVP,用于湿实验室合成和抗病毒活性评估。此外,该模型被部署为一个网络服务器,可以免费在线获得,以帮助研究人员进行AVP预测。该服务器可用于在蛋白质序列中发现新的AVP,结果以报告的形式呈现,其中包括预测的肽及其物理化学性质。

本文的主要贡献如下:
1)我们提出了Deep-AVPpred,这是一种用于识别蛋白质序列中AVP的深度学习分类器,其性能优于现有的AVP分类器,在验证集和测试集上分别达到约94%和93%的精度。

2) 我们提出的模型可以自动从肽中提取最佳特征,消除了我们对领域专家生成最佳特征的依赖。
3) 我们使用Deep-AVPpred来筛选属于人类干扰素-α家族的抗病毒蛋白质,并鉴定出可以在实验室进行化学合成的新型AVP,并对其抗病毒活性进行评估。
4) 该模型被部署为一个网络服务器,以帮助研究人员从蛋白质序列中发现新的AVP.

本文的其余部分组织如下。第二节提供了有关数据集和拟议框架的信息。第三节给出了从我们提出的模型中获得的结果及其与其他最先进分类器的比较。第四节介绍了利用我们提出的模型在人类干扰素-α家族蛋白质中识别新的AVP,第五节给出了结论。

II. MATERIALS AND METHODS

A. Dataset

在目前的研究中,我们收集了10203个长度为∈ [5,50]来自VPpred、DBAASP、DRAMP、SA TPDB和StarPep。8792个非A VP来自VPpred和瑞士Prot。我们使用类似的方法从Swiss-Prot获得了非A VPs在之前的论文中。对Swiss-Prot进行了查询,以获得经过审查的、人工注释的长度蛋白质∈ [5,50]不包含以下任何关键词:抗病毒、抗真菌、抗菌、抗菌、抗生素、抗毒素、抗肿瘤、防御素、抗结核、抗HIV、抗疟疾、抗癌、抗内毒素、抗糖尿病、杀虫、细胞因子、抗氧化剂、抗RSA、抗RAM阳性、抗RAM阴性、抗质子、抗质子、细菌素、抗生物膜、抗炎、,抗寄生虫,分泌,排泄,效应物。在收集AVP和非AVP后,我们应用了以下预处理步骤:(i)删除重复序列。(ii)删除含有非天然氨基酸的序列。(iii)消除了以AVP和非AVP形式出现的序列。(iv)使用了阈值为0.7的CD-HIT-2D程序,消除了与AVP至少70%相同的非AVP。(v) 确定了至少20个AVP中存在的四个长度基序,并消除了包含这些基序的非AVP。

预处理后,我们得到4432个非AVP和4090个AVP。为了使数据集平衡,我们删除了342个非AVP。因此,最终数据集(Ds)包含8180个肽(AV

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值