ATSE | 基于GNN和attention机制的肽毒性预测

本文链接：https://blog.csdn.net/XANTAR____RES/article/details/133576096

文献链接：ATSE: a peptide toxicity predictor by exploiting structural and evolutionary information based on graph neural network and attention mechanism | Briefings in Bioinformatics | Oxford Academic

Motivation

Peptides是目前非常有前景的用于对抗各种疾病的药物之一
使用计算方法预测大量候选肽的潜在毒性是肽药物发展的一大重要环节

Dataset

本文根据模型任务构建了新的数据集。对于肽毒性的二分类任务，数据集主要由正样本和负样本组成：

正样本：从公共数据库ConoServer、ArachnoServer和SwissProt中，选取10到50长的实验验证毒性肽。特别地，SwissProt使用关键词“KW-0800”筛选的。进行去重后，得到3992个正样本；
负样本：仅在SwissProt中，使用关键词“NOT KW-0800 and NOT KW-0020”，筛选10到50长的非毒性肽，得到7009个负样本。

然后，再使用CD-HIT program以threshold为0.9，筛选掉序列相似度超过90%的样本，得到剩余正样本1932个，负样本则从剩下的里面随机抽取1932个，组成最终的数据集总共3864个。模型训练过程中，随机取85%的数据作为训练集，剩余作为测试集，为避免偶然性对这一操作进行了20次并取平均作为测试结果。

Model Structure

本文提出一种预测肽毒性模型——ATSE（上图所示），利用结构信息和演化信息，并基于GNN和attention机制设计而成。具体有下列四模块组成：

序列处理模块：将序列信息转换为分子图和演化信息；
特征提取模块：从图结构信息和演化信息中学习更具代表性的特征；
Attention模块：优化前面学习的特征信息；
输出模块：基于3）的输出二分类判断肽的毒性。

Sequence processing module

首先介绍序列处理模块。这里主要分为两个角度，结构信息和演化信息。对于结构信息，本文使用RDKit工具将肽序列（FASTA格式）转化为分子图（MOL格式）。

对于演化信息，本文使用PSSM（position-specific scoring metrix）来表示，其能够包含从由PSI-BLAST方法生成的多序列比对（multiple sequence alignment）中提取的演化信息。PSSM具体长下面这样，行为l表示序列长度，列为20表示标准氨基酸个数，其每一行记录了序列在这个位置的氨基酸转变为其他氨基酸的可能性。

Feature extraction module

基于之前的分子图，构建GNN所需要的图数据结构G=(V, E)。首先，使用1-D Weisfeiler-Lehman算法（1-WL）为各点做label，具体操作是：在第0轮，先给各点和边初始化label值，然后每一轮根据上轮的点和边的label更新次轮的点label，然后根据边连接的两点更新边label，可结合下图理解，