【强相关文献】CSM-Toxin,网站,可预测蛋白毒性

文献链接:Pharmaceutics | Free Full-Text | CSM-Toxin: A Web-Server for Predicting Protein Toxicity

代码:Bitbucket

摘要

现如今小分子药物、蛋白药物的发展趋势逐渐壮大,对临床试验具有很大的促进作用。然而,预测它们的毒性的方法都相对较慢、且效果不好。于是,文献的作者提出了一种基于深度学习的模型,来快速的预测这些药物的毒性,同时由于市面上没有很好的数据集,模型训练所使用的数据集是作者自己建立的,其包含的肽和蛋白数据都是高质量的且实验验证过的。模型在交叉验证和多次盲测测试中取得了在MCC标准下0.66的成绩。目前此方法可以在此网站中使用CSM-Toxin | Home


数据集

本文建立的个性化数据集的数据来源于UniProt,通过如下图中所示的使用一些query以及使用CD-HIT技术来筛选所需要的数据,最终得到2475个有toxic属性的和214,740个non-toxic属性的序列数据。

 值得注意的是,这些数据中有203个toxic和2337个non-toxic序列目前存在的方法中都使用过的,所以作者使用这些来组成test set来对比测试CSM-Toxin和ToxinPred2。同时还使用一组有236个正数据和21294个负数据来测试本文的算法性能,而其他的数据则平均分为5份来做交叉验证。


模型

本文的模型主要基于ProteinBERT。首先使用Masked Language Model technique来预训练模型,基于100 million个来自UniProt的序列数据,通过无监督学习的方式最终获得训练参数。CSM-Toxin模型结构如下图所示,其将ProteinBERT中的6个Transformer层的输出Global Representation output堆叠,然后在后面依次加入Dropout(0.5)、FC层和Sigmoid最终获得一个标量值,若其大于给定阈值,则判定为toxic,反之为non-toxic。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值