关于Explainable Deep Hypergraph Learning Modeling the Peptide Secondary Structure Prediction的个人理解
前置知识:
Attention:YouTube
LSTM:RNN模型与NLP应用(1/9):数据处理基础 - YouTube
超图神经网络:https://zhuanlan.zhihu.com/p/586807239
CRF:【NLP】从隐马尔科夫到条件随机场 | MaxMa Blog (anxiang1836.github.io)
Bi-LSTM-CRF:https://zhuanlan.zhihu.com/p/42096344 、180+条经典论文解读免费视频&资料在这里 - 飞书云文档 (feishu.cn)
摘要部分:
在预测肽二级结构上,由于缺乏判别信息,因此并未有成熟的方案,本文提出一种基于超图神经网络+Bi-LSTM-CRF的多头注意力神经网络的方法来预测肽的二级结构,命名为PHAT。
介绍部分:
PEP2D、psp-mvirt、PEP-FOLD存在一定的局限性(精度、黑盒模型),现有的工作大多严重依赖特征工程,而且由于黑箱模型问题,限制了我们对肽序列和结构之间的关系,作者建立一个肽结构预测模型,实现更高精度的同时一定程度上解决了黑盒模型的问题。
作者所做的工作:(建立了一个肽结构预测模型)
使用一个预训练模型(ProtT5的预训练模型)
搭建一个HyperGMA模型(超图神经网络+Bi-LSTM-CRF+多头注意力机制)
本模型有助于完成肽相关的下游任务,同时搭建了一个在线网站(PHAT)
实验部分:
数据集:SCRATCH-1D
数据预处理:
训练集和测试集划分:
- 肽的三态二级结构
测试集:257个 (肽序列长度小于50)
训练集:1028个 (肽序列长度50-100)
验证集:训练集随机取10%
下面是作者对于数据集划分的详细信息:
- 肽的八态二级结构数据集
数据集(额外收集到的1060个序列)
测试集:42个肽序列(随机选取)
训练集:1018个肽序列
模型结构:
添加图片注释,不超过 140 字(可选)
作者所本模型分为三部分:
1、知识转移模块(使用了一个ProtT5的预训练模型)
虽然蛋白质结构和多肽结构确实仍有不同,但是还是具有一定的相似性. 因此使用了预训练模型ProtT5,将原始肽序列输入导ProtT5中,并依赖于自注意机制(不懂得小伙伴,油管王树森老师也讲得不错:拆 Transformer 系列一:Encoder-Decoder 模型架构详解 - 知乎 (zhihu.com)**)**提取输出载体,在每个编码器中九三级具有所有残差的注意力
2、超图嵌入模块(超图神经网络:[IEEE TPAMI] HGNN+: 通用超图神经网络 - 知乎 (zhihu.com)+多头注意力机制:拆 Transformer 系列二:Multi- Head Attention 机制详解 - 知乎 (zhihu.com))
对于其超图结构:给定一个肽序列,然后用图提取器进行划分为有特定长度的超边,残基组作为超节点,然后构建超图结构,此外用多头注意力机制用于捕获局部和全局特征,如下图:
添加图片注释,不超过 140 字(可选)
3、特征融合与分类模块
通过Element-wise乘法策略从上述两个通道集成特征,把得到的矩阵塞到Bi-LSTM 提高和优化特征表示能力,之后利用crf(条件随机场简介 (echen.me))学习结构的相关性,也就是通过输入的X给出对应输出的y但是关于x->y的映射是如何得到的请去查阅CRF的相关文章,这里不展开,但若只是简单的预测的话本身只用神经网络即可但是为还要加上一个CRF呢?这是因为两者存在互补的优势,CRF无法从整个文本的角度进行考虑,仅仅局限一句话附件,在生物信息方向上可能就仅仅局限于旁边的几个序列,仅使用Bi-LSTM进行序列标注可能存在一些限制。Bi-LSTM只能对每个输入标记进行独立的分类,而没有考虑整个标记序列的全局一致性。这可能导致不合理的标记序列生成,例如不连续的标记或标记间的不一致性。为了解决各自单独使用的问题,将Bi-LSTM与CRF结合使用。最后预测肽残基所属的结构状态。这个模型是Bi-LSTM-CRF,论文原文:[1508.01991] Bidirectional LSTM-CRF Models for Sequence Tagging (arxiv.org(序列标注:Bi-LSTM + CRF - 知乎 (zhihu.com))
添加图片注释,不超过 140 字(可选)
为了防止噪声干扰,这里作者并未直接使用一个传统CRF,而是将输出转移到与全局转移矩阵具有相同维度的局部转移矩阵。然后,将局部转移矩阵连接到全局转移矩阵,因为使用融合的转移矩阵提高了模型评估不同数据集的能力。
添加图片注释,不超过 140 字(可选)
模型训练和预测过程
这里主要介绍作者定义的几个函数和公式:
损失函数Loss=
每条路的得分为 ,则总得分公式如下,e是指数
敲得挺累,直接截图了,莫怪
预测函数
评估指标:
比较常见因此不做过多解释:
添加图片注释,不超过 140 字(可选)
添加图片注释,不超过 140 字(可选)
后面部分不涉及模型结构上的大改动了,主要是对不同应用环境下的模型性能测试和结构的微调
模型性能:
从上述效果中可以看到本模型的效果再所有的评估方法中均达到了最高的准确率,这很可能是由于多头注意力机制所导致的,同时再预测肽二级结构方面,比Jpred、PSSP-MVIRT、PROTEUS2、RaptorX更有效,同时作者团队与当下主流的蛋白质预测软件比较Alphafoldl38和trRosetta比较,本模型在更少计算和时间的情况下,有着不逊色他们的性能。
肽二级结构预测长度偏好研究
通过实验对比,发现PHAT在肽长度为[30,35] [35,40] [40,45][45,50]这几个区间的SOV ACC F1得分比第二名PSSP-MVIRT高7.02%、6.21%、3.33%,表面其在短肽方面效果更好
不同模型性能对比
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-BiiqA8ic-1691992717664)(阅读笔记.assets/image-20230724195328721.png)]
PHAT在提取多尺度特征和进行分类的术语中具有良好的可解释性
下表可看出使用CRF的和交叉熵的对比关系
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-AYrPFPwo-1691992717665)(阅读笔记.assets/image-20230724195651324.png)]
首先可以看到相较于使用交叉熵CRF的效果更好,同时为了解释这个现象,作者团队随机选择并预测了PDB ID为1edm链B的肽序列二级机构,可视化模型中的转换矩阵和发射矩阵,如下图,在迁移矩阵中可以看到当前残基的标记转移到相邻残基的实标记的概率最高。
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-RCemSPyP-1691992717666)(阅读笔记.assets/image-20230724195829529.png)]
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Z7qavmvB-1691992717666)(阅读笔记.assets/image-20230724200113800.png)]
上图B肽片段对残基的注意力,图C可以看到残基对肽片段的注意力
PHAT在三个肽相关下游任务中的应用
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-34ZZTJiC-1691992717667)(阅读笔记.assets/image-20230724200354737.png)]
图4三个下游任务的比较结果。A)多肽毒性预测任务的结果。B)预测t细胞受体与mhc肽复合物相互作用的结果。C)蛋白质-肽结合位点预测任务的结果。D) ATSE对比实验的ROC曲线及查准率曲线。E,F)不同置信度下预测多肽毒性的正反例密度。G) NetTCR-2.0中比较实验的ROC曲线及查准率曲线。H, I)不同置信度下预测TCR与mhc肽复合物相互作用的正例密度和负例密度。
PHAT在帮助预测肽毒性方面表现突出
在数据集ATSE,模型表现性能良好,详情见图四DEF
PHAT在预测t细胞受体与mhc肽复合物相互作用方面取得了卓越的表现
使用具有CNN架构的NetTCR-2.0方法来预测a/β TCR和mhc肽序列之间的相互作用,并评估添加从三种方法(PSSP-MVIRT, PROTEUS2和我们的PHAT)预测的二级结构的效果。如图4G和表S8(支持信息)所示,PHAT效果更好
PHAT在帮助预测蛋白质-肽结合位点方面表现出竞争性
使用具有CNN架构的NetTCR-2.0方法来预测a/β TCR和mhc肽序列之间的相互作用,并评估添加从三种方法(PSSP-MVIRT, PROTEUS2和我们的PHAT)预测的二级结构的效果。如图4G和表S8(支持信息)所示,PHAT效果更好
PHAT在帮助预测蛋白质-肽结合位点方面表现出竞争性
…略了
到此暂时不再写了,最近忙其他事情去了,基本上这个论文也就是这样的了,写的不好请多多指正。