Motivation
- Peptides是目前非常有前景的用于对抗各种疾病的药物之一
- 使用计算方法预测大量候选肽的潜在毒性是肽药物发展的一大重要环节
Dataset
本文根据模型任务构建了新的数据集。对于肽毒性的二分类任务,数据集主要由正样本和负样本组成:
- 正样本:从公共数据库ConoServer、ArachnoServer和SwissProt中,选取10到50长的实验验证毒性肽。特别地,SwissProt使用关键词“KW-0800”筛选的。进行去重后,得到3992个正样本;
- 负样本:仅在SwissProt中,使用关键词“NOT KW-0800 and NOT KW-0020”,筛选10到50长的非毒性肽,得到7009个负样本。
然后,再使用CD-HIT program以threshold为0.9,筛选掉序列相似度超过90%的样本,得到剩余正样本1932个,负样本则从剩下的里面随机抽取1932个,组成最终的数据集总共3864个。模型训练过程中,随机取85%的数据作为训练集,剩余作为测试集,为避免偶然性对这一操作进行了20次并取平均作为测试结果。
Model Structure
本文提出一种预测肽毒性模型——ATSE(上图所示),利用结构信息和演化信息,并基于GNN和attention机制设计而成。具体有下列四模块组成:
- 序列处理模块:将序列信息转换为分子图和演化信息;
- 特征提取模块:从图结构信息和演化信息中学习更具代表性的特征;
- Attention模块:优化前面学习的特征信息;
- 输出模块:基于3)的输出二分类判断肽的毒性。
Sequence processing module
首先介绍序列处理模块。这里主要分为两个角度,结构信息和演化信息。对于结构信息,本文使用RDKit工具将肽序列(FASTA格式)转化为分子图(MOL格式)。
对于演化信息,本文使用PSSM(position-specific scoring metrix)来表示,其能够包含从由PSI-BLAST方法生成的多序列比对(multiple sequence alignment)中提取的演化信息。PSSM具体长下面这样,行为l表示序列长度,列为20表示标准氨基酸个数,其每一行记录了序列在这个位置的氨基酸转变为其他氨基酸的可能性。
Feature extraction module
基于之前的分子图,构建GNN所需要的图数据结构G=(V, E)。首先,使用1-D Weisfeiler-Lehman算法(1-WL)为各点做label,具体操作是:在第0轮,先给各点和边初始化label值,然后每一轮根据上轮的点和边的label更新次轮的点label,然后根据边连接的两点更新边label,可结合下图理解,
然后,通过word embedding将得到的输出编码成矩阵Xn,m,n即点个数,并输入到GNN layer中,经过k层GNN layer(如下图,Wgnn为权重矩阵,A为邻接矩阵),输出学习到结构信息的矩阵X。
每一个GNN layer中,还会输出Ygraph作为这一层的肽序列表征,公式如下,
至于CNN_BiLSTM网络,处理PSSM数据比较常规。首先对PSSM进行正则化,然后输入到2维的CNN中来提取局部的序列隐藏特征。CNN处理完后,再输入到BiLSTM中获取长距离依赖信息。
Attention module
如模型图中所示,其将每一层GNN的输出与CNN_BiLSTM的输出concatenate起来,然后拼成下列式子:
每个f表示一个concatenate,h由GNN层数决定,即得到h×u维的矩阵F。通过Attention机制后,输出a,然后经过如下式子得到z:
Output module
输出则比较简单,将z输入到全连接层得到2元向量y,最后计算概率得到判断结果,公式如下:
Results
评估指标使用的二分类任务中常用的指标(如下图),以及auROC和auPRC:
Contribution
- 发现结构信息和演化信息是互补的,结合两者可以有效地提升模型性能;
- ATSE学到的data-driven特征可以被解释和可视化,为深入分析提供更多信息;
- 建立了一个嵌入了ATSE模型的网址供使用:ATSE。