A protein classification neural network based on Convolution and Attention

Burger~

已于 2024-01-14 20:09:05 修改

阅读量921

点赞数 19

分类专栏：课程作业文章标签：分类神经网络深度学习 transformer pytorch cnn 经验分享

于 2023-12-22 10:43:26 首次发布

本文链接：https://blog.csdn.net/Burger_/article/details/135147379

版权

课程作业专栏收录该内容

6 篇文章 2 订阅

订阅专栏

Author：Shibo Liu

Abstract

给定蛋白质的氨基酸序列，预测它所属的CATH超家族是一个有趣的问题。由于时间关系我并未调研其他人的相关工作。我提出了一个神经网络模型，它用来对蛋白质数据进行分类。该模型使用了卷积、残差连接、注意力机制等方法，在seq1024.hdf5数据集上取得了92.01%的准确率。

Introduction

蛋白质是有机大分子，氨基酸是蛋白质的基本组成单位。蛋白质是由氨基酸以“脱水缩合”的方式组成的多肽链、经过盘曲折叠形成的具有一定空间结构的物质。人体内蛋白质的种类很多，性质、功能各异，但都是由20多种氨基酸按不同比例组合而成的。所以，通过对氨基酸编号，我们可以用一个包含氨基酸编号的向量表示不同的蛋白质，向量中前后相邻的元素表示相互连接的氨基酸。

由于上述的数据结构特性，我们很自然地想到了卷积神经网络[1]。不过，不同于二维的图像，我们应该使用一维卷积。此外，注意力机制[2]对于序列数据也有不错的效果，因此我将其运用到模型中。

Method

模型的整体架构如图1(1)所示：嵌入模块对输入进行编码，卷积模块捕获蛋白质的局部特征，注意力模块捕获蛋白质的全局特征，头模块将特征映射到各个蛋白质类别。

需要说明的是，我并非一开始就构造了这样的模型：初始只是简单地增加卷积的层数，达到一定数量后效果不再提升，通过引入残差连接[3]解决了梯度消失的问题；为了捕获氨基酸之间的相关性，加入了注意力层。卷积模块如图1(2)所示，注意力模块如图1(3)所示。此外，我还尝试了Metaformer[4]提出的结构，即在卷积模块和注意力模块中都有多层感知机，但是它的效果并不好，且全连接层增加了计算量。

在卷积模块中，我们对输入进行第一次卷积，第一次BatchNorm[5]调节分布、并用ReLU[6]激活；然后第二次卷积，卷积后的向量与输入加和，做第二次BatchNorm和ReLU。

在注意力模块中，我们先对输入进行BatchNorm，然后做注意力运算，再与输入加和并用ReLU激活。

嵌入模块对氨基酸序列的两端进行填充（补0），使得所有序列都是相同的长度（400）。

头模块是一个全连接层，输出维度与要预测的蛋白质种类数相等。

Experiments

1. Dataset

我们使用python的h5py库，数据集的路径为：/data/cath/hdf5/seq1024.hdf5。该数据集共有3924783个蛋白质序列，分为6630种蛋白质。蛋白质序列是不等长的向量（最大长度为399），向量的分量是数字1~20，表示20种氨基酸。测试集包含76800个蛋白质序列，剩下的作为训练集。

2. Setup

卷积模块的数量为6，所有模块的卷积核大小都是3，其中前三个模块的两次卷积步长都为1，后三个模块的第一次卷积步长为2、第二次卷积的步长为1。在注意力模块中，使用2头自注意。输入的维度变化如表1所示。

loss function：CrossEntropyLoss
Optimizer：Adam
learning rate：0.001
iterations：10

Results

训练过程中的准确率和损失如图2所示，最高准确率达到了92.01%。我们发现，虽然加入注意力机制并未对模型最终的准确率有较大的提升，但在启动阶段表现良好，刚开始就有很高的准确率。

Conclusion

总体来说，我的模型取得了不错的效果，但可能是因为训练集太大，测试集太小，所以效果较好。后续可以尝试增大测试集的比例，并划分出验证集。此外，python的h5py库中还有包含了α碳原子空间坐标的蛋白质数据集，路径为：/data/cath/hdf5/struct256.hdf5，后续工作可以使用图神经网络对其进行分类。

Reference

[1]

KRIZHEVSKY A, SUTSKEVER I, HINTON G E. ImageNet Classification with Deep Convolutional Neural Networks[J/OL]. Communications of the ACM, 2017: 84-90. ImageNet classification with deep convolutional neural networks | Communications of the ACM. DOI:10.1145/3065386.

[2]

DEVLIN J, CHANG M W, LEE K, et al. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding[C/OL]//Proceedings of the 2019 Conference of the North, Minneapolis, Minnesota. 2019. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding - ACL Anthology. DOI:10.18653/v1/n19-1423.

[3]

HE K, ZHANG X, REN S, et al. Deep Residual Learning for Image Recognition[C/OL]//2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Las Vegas, NV, USA. 2016. Deep Residual Learning for Image Recognition | IEEE Conference Publication | IEEE Xplore. DOI:10.1109/cvpr.2016.90.

[4]

YU W, SI C, ZHOU P, et al. MetaFormer Baselines for Vision[J]. 2022.

[5]

IOFFE S, SZEGEDY C. Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift[J]. arXiv: Learning,arXiv: Learning, 2015.

[6]

NAIR V, HINTON GeoffreyE. Rectified Linear Units Improve Restricted Boltzmann Machines[J]. International Conference on Machine Learning,International Conference on Machine Learning, 2010.

Burger~

关注

19
点赞
踩
22

收藏

觉得还不错? 一键收藏
打赏
0
评论
A protein classification neural network based on Convolution and Attention

山东大学计算机科学与技术学院Data Mining2023年大作业
复制链接

扫一扫