A protein classification neural network based on Convolution and Attention

Author:Shibo Liu    

Notice:All rights reserved

Abstract

        给定蛋白质的氨基酸序列,预测它所属的CATH超家族是一个有趣的问题。由于时间关系我并未调研其他人的相关工作。我提出了一个神经网络模型,它用来对蛋白质数据进行分类。该模型使用了卷积、残差连接、注意力机制等方法,在seq1024.hdf5数据集上取得了92.01%的准确率。

Introduction

        蛋白质是有机大分子,氨基酸是蛋白质的基本组成单位。蛋白质是由氨基酸以“脱水缩合”的方式组成的多肽链、经过盘曲折叠形成的具有一定空间结构的物质。人体内蛋白质的种类很多,性质、功能各异,但都是由20多种氨基酸按不同比例组合而成的。所以,通过对氨基酸编号,我们可以用一个包含氨基酸编号的向量表示不同的蛋白质,向量中前后相邻的元素表示相互连接的氨基酸。

        由于上述的数据结构特性,我们很自然地想到了卷积神经网络[1]。不过,不同于二维的图像,我们应该使用一维卷积。此外,注意力机制[2]对于序列数据也有不错的效果,因此我将其运用到模型中。

Method

        模型的整体架构如图1(1)所示:嵌入模块对输入进行编码,卷积模块捕获蛋白质的局部特征,注意力模块捕获蛋白质的全局特征,头模块将特征映射到各个蛋白质类别。

        需要说明的是,我并非一开始就构造了这样的模型:初始只是简单地增加卷积的层数,达到一定数量后效果不再提升,通过引入残差连接[3]解决了梯度消失的问题;为了捕获氨基酸之间的相关性,加入了注意力层。卷积模块如图1(2)所示,注意力模块如图1(3)所示。此外,我还尝试了Metaformer[4]提出的结构,即在卷积模块和注意力模块中都有多层感知机,但是它的效果并不好,且全连接层增加了计算量。

        在卷积模块中,我们对输入进行第一次卷积,第一次BatchNorm[5]调节分布、并用ReLU[6]激活;然后第二次卷积,卷积后的向量与输入加和,做第二次BatchNorm和ReLU。

        在注意力模块中,我们先对输入进行BatchNorm,然后做注意力运算,再与输入加和并用ReLU激活。

        嵌入模块对氨基酸序列的两端进行填充(补0),使得所有序列都是相同的长度(400)。

        头模块是一个全连接层,输出维度与要预测的蛋白质种类数相等。

Experiments

1. Dataset

        我们使用python的h5py库,数据集的路径为:/data/cath/hdf5/seq1024.hdf5。该数据集共有3924783个蛋白质序列,分为6630种蛋白质。蛋白质序列是不等长的向量(最大长度为399),向量的分量是数字1~20,表示20种氨基酸。测试集包含76800个蛋白质序列,剩下的作为训练集。

2. Setup

        卷积模块的数量为6,所有模块的卷积核大小都是3,其中前三个模块的两次卷积步长都为1,后三个模块的第一次卷积步长为2、第二次卷积的步长为1。在注意力模块中,使用2头自注意。输入的维度变化如表1所示。

  • loss function:CrossEntropyLoss

  • Optimizer:Adam

  • learning rate:0.001

  • iterations:10

Results

        训练过程中的准确率和损失如图2所示,最高准确率达到了92.01%。我们发现,虽然加入注意力机制并未对模型最终的准确率有较大的提升,但在启动阶段表现良好,刚开始就有很高的准确率。

 

Conclusion

        总体来说,我的模型取得了不错的效果,但可能是因为训练集太大,测试集太小,所以效果较好。后续可以尝试增大测试集的比例,并划分出验证集。此外,python的h5py库中还有包含了α碳原子空间坐标的蛋白质数据集,路径为:/data/cath/hdf5/struct256.hdf5,后续工作可以使用图神经网络对其进行分类。

Reference

[1]

KRIZHEVSKY A, SUTSKEVER I, HINTON G E. ImageNet Classification with Deep Convolutional Neural Networks[J/OL]. Communications of the ACM, 2017: 84-90. ImageNet classification with deep convolutional neural networks | Communications of the ACM. DOI:10.1145/3065386.

[2]

DEVLIN J, CHANG M W, LEE K, et al. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding[C/OL]//Proceedings of the 2019 Conference of the North, Minneapolis, Minnesota. 2019. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding - ACL Anthology. DOI:10.18653/v1/n19-1423.

[3]

HE K, ZHANG X, REN S, et al. Deep Residual Learning for Image Recognition[C/OL]//2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Las Vegas, NV, USA. 2016. Deep Residual Learning for Image Recognition | IEEE Conference Publication | IEEE Xplore. DOI:10.1109/cvpr.2016.90.

[4]

YU W, SI C, ZHOU P, et al. MetaFormer Baselines for Vision[J]. 2022.

[5]

IOFFE S, SZEGEDY C. Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift[J]. arXiv: Learning,arXiv: Learning, 2015.

[6]

NAIR V, HINTON GeoffreyE. Rectified Linear Units Improve Restricted Boltzmann Machines[J]. International Conference on Machine Learning,International Conference on Machine Learning, 2010.

  • 19
    点赞
  • 22
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Burger~

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值