【大模型多肽发现、学习笔记】AI4ACP

文献链接:Pharmaceuticals | Free Full-Text | Peptide-Based Drug Predictions for Cancer Therapy Using Deep Learning

摘要

      ACP(Anticancer Peptides),即抗癌肽,是目前针对癌细胞的一种新型抗癌药物。但新的抗癌药物的发现周期很长,且评估候选药物的花费巨大。本文针对这一问题,提出一种基于肽序列编码的CNN模型,AI4ACP,其作为一个网站可以预测肽的特性同时促进对具有抗癌效果的肽发现的研究。本文的方法使用了一种名为PC6的蛋白质编码方法,其可以把蛋白质序列编码成能够表征每一个氨基酸的6种物理化学特性的计算矩阵。读者可以使用AI4ACP轻松实现对未知肽的预先评估,来选择合适的肽的测试它们的抗癌特性。


模型

       PC6编码方法:使用名为“Peptides”的R package选择的氨基酸物理化学特性。首先筛选出115种待选特征,然后使用R函数和K-means聚类方法,得到6种最优聚类。最后从这6个聚类中分别选取出hydrophobicity (H1);volume of side chains (V);polarity (P1);pH at the isoelectric point (pl);the negative of the logarithm of the dissociation constant for the -COOH group (pKa);net charge index of side chain (NCI)。

       在蛋白质序列编码中,每一个氨基酸的6种物理化学特性对应的有各自的value(值),假设ACP序列长为L,数据集中最长的序列为N,则每一个ACP序列对应一个N×6的特征矩阵(即每一行对应一个氨基酸和它的6个特征值),矩阵中后面的N-L行则用0补充(这些行标记为“X”)。

       每一个氨基酸对应的6个特征值如下图所示,这些值由之前的R函数计算获得。

        基于PC6进行数据预处理后,对于获得的特征矩阵,本文采用CNN模型对输入的矩阵进行处理,模型结构如下图所示。

 


结果

       首先,ACP的收集工作主要是包含了Charoenkwan等人的工作使用的数据集和一些近期发现的ACPs(总共即2124个positive和2124个negative)。除去212个作为测试集外,剩下的以4:1的比例分为了训练集和验证集。

       由于大多数代码不公开以及web维护不到位,大多数ACP预测工具无法进行比较分析。因此本文选择AntiCP2.0作为对比实验对象。在使用Charoenkwan等人的工作中使用的替代数据集作为训练集时,AI4ACP的表现略高于AntiCP2.0,但在使用本文的数据集来训练时,AntiCP2.0在Accuracy、Specificity、Sensitivity和MCC上都是表现最好的。


讨论

       随着出版物、数据库和工具的增加,肽作为治疗方案的可行性和重要性越来引发重视,且越来越多的ACP被确认并被批准使用。然而目前的这些ACP预测工具还仅限于预测,仍然需要实验室试验来确定其抗癌特性。

       目前已有一些优秀的ACP预测工具,如iACP、ACpred和AntiCP2.0,他们的蛋白质编码方法主要有amino acid composition(AAC)、dipeptide composition(DPC)、autocovariance(AC)以及一些传统的机器学习方法如SVM、RF等。本文使用的是PC6蛋白质编码方法,PC6编码方法从蛋白质的物理化学特性的6个子集中分别选取一个特性,其中4个的选择是基于AC方法中的7个特性。推测表明PC6方法可以获取更完整的目标序列特性。

       由于前人的工作中使用的数据集有一定时间没有更新,所有使用这些数据来测试稍显不妥,况且ACPs是AMPs的一个子集。所以建议使用最新的ACPs数据和从UniProt数据集和随机生成的数据集中收集的无偏差数据来训练模型,这样模型才能有更好地表现。

       本文还使用的5折交叉验证来确保模型的稳定性以及防止过拟合。虽然使用此验证后我们的方法表现有些轻微下滑,但是平均查准率还是有约89%。结果也表明此模型可以稳定的工作且不用担心过拟合。

       在最后的测试集实验中,由7个来总共43个ACP的序列被误判,即预测查准率约84%。结果表明,如果使用AI4ACP来预测序列且结果为ACP,那么它大可能是真的ACP。

注:AI4ACP深度学习模型的代码位于https://github.com/yysun0116/AI4ACP

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值