文献链接:Pharmaceutics | Free Full-Text | CSM-Toxin: A Web-Server for Predicting Protein Toxicity
代码:Bitbucket
摘要
现如今小分子药物、蛋白药物的发展趋势逐渐壮大,对临床试验具有很大的促进作用。然而,预测它们的毒性的方法都相对较慢、且效果不好。于是,文献的作者提出了一种基于深度学习的模型,来快速的预测这些药物的毒性,同时由于市面上没有很好的数据集,模型训练所使用的数据集是作者自己建立的,其包含的肽和蛋白数据都是高质量的且实验验证过的。模型在交叉验证和多次盲测测试中取得了在MCC标准下0.66的成绩。目前此方法可以在此网站中使用CSM-Toxin | Home。
数据集
本文建立的个性化数据集的数据来源于UniProt,通过如下图中所示的使用一些query以及使用CD-HIT技术来筛选所需要的数据,最终得到2475个有toxic属性的和214,740个non-toxic属性的序列数据。
值得注意的是,这些数据中有203个toxic和2337个non-toxic序列目前存在的方法中都使用过的,所以作者使用这些来组成test set来对比测试CSM-Toxin和ToxinPred2。同时还使用一组有236个正数据和21294个负数据来测试本文的算法性能,而其他的数据则平均分为5份来做交叉验证。
模型
本文的模型主要基于ProteinBERT。首先使用Masked Language Model technique来预训练模型,基于100 million个来自UniProt的序列数据,通过无监督学习的方式最终获得训练参数。CSM-Toxin模型结构如下图所示,其将ProteinBERT中的6个Transformer层的输出Global Representation output堆叠,然后在后面依次加入Dropout(0.5)、FC层和Sigmoid最终获得一个标量值,若其大于给定阈值,则判定为toxic,反之为non-toxic。