文献解读——基于深度学习的病毒宿主预测

Bio大恐龙

已于 2022-11-26 22:03:59 修改

阅读量1.2k

点赞数 1

分类专栏：文献分享文章标签：深度学习人工智能 python

于 2022-11-26 21:59:54 首次发布

本文链接：https://blog.csdn.net/ouyangk1026/article/details/127880861

版权

文献分享专栏收录该内容

1 篇文章 0 订阅

订阅专栏

文章目录

背景介绍
作者介绍
文章概述
流程
数据准备
输入数据处理
深度神经网络
结果

背景介绍

人畜共患病病毒对人类和动物的健康产生巨大了威胁，例如近期爆发的寨卡病毒、埃博拉病毒以及冠状病毒。病毒起源的宿主信息对于有效控制和消灭传播是至关重要的，这是因为病毒需要时间去完全适应新宿主，人们可以利用这段时间去隔离起源宿主。但是确定起源宿主的信息是一个挑战。目前使用的监督学习、概论模型以及相似性排序模型都由于病毒知识的缺失，不能发现并使用具有生物学意义的特征，导致它们在预测宿主数量以及准确性上出现问题。

作者想要构建一个具有高准确性、广宿主谱以及利用具有生物学意义的特征的模型，来解决病毒起源的宿主信息这一问题。

作者介绍

作者是来自耶拿大学的生物信息系的硕士，名字是Florian Mock，从它的发表文章的主题来看，作者是长期从事于使用机械学习的方法去解决分类问题。如果大家也从事这方面的研究可以关注该作者，他似乎挺“高产”的。

该文章发表Bioinformatics上，这个也是很不错的刊了（个人觉得）。该刊2022年的影响因子是24.79。
在这里插入图片描述

文章概述

文章想解决的科学问题与目前研究的空白与之前提到的背景信息相同。此处不再赘述。

文章的结果是作者使用病毒基因组序列信息作为唯一的特征构建了一个深度学习的方法，使用100-400bq的序列便可在流感A病毒、狂犬病毒以及轮状病毒每个物种上的准确率取得了0.93-0.98的准确率。
在这里插入图片描述

流程

文章的流程是获得病毒序列→建立训练集、验证集、测试集→将序列信息转换为深度神经网络能处理的输入信息→模型训练→得到预测结果。
在整个流程中有两个难点：

如何去除数据偏向性带来的影响
将序列信息转化为模型能处理的数据信息

在这里插入图片描述

数据准备

本文的数据来自欧洲核酸档案（ENA）数据库，序列的accession号来自ViPP数据库。流感A病毒、狂犬病毒以及轮状病毒的宿主分别有49、19和6种。从右边这张热图可以看出大量数据集中在流感病毒中（这是可以理解的，历史上爆发过五次流感病毒疫情），如何去除大量数据在预测中导致的偏向性呢？这便是之前提到的第一个难点，作者使用Repeated random under-sampling的方法（翻译过来应该是重复随机下采样，还是不翻译的好）。这个方法首先确认验证集和测试集，然后在剩余的样本中随机采样，因此避免了水桶效应，即数据量最少的数据决定其他数据的数量。
在这里插入图片描述

输入数据处理

病毒序列之间长度不同，深度学习模型只能处理矩阵数据，于是如何将不同序列长度处理成等长数据便是第一个问题。其次是如何将ATCGN的序列编码转变为数字编码。第二个问题比较容易解决，使用one hot 编码方式即可。第一个问题的难点是将其变为等长后，如何体现生物学意义？虽然作者给出了八种方法，但是这八种方法的生物学意义都没有解释，这是一个疑惑点。然后将序列切断以缩短模型训练的时间。
在这里插入图片描述

深度神经网络

LSTM，全称 (Long Short Term Memory)是一种特殊的递归神经网络。这种网络与一般的前馈神经网络不同，LSTM可以利用时间序列对输入进行分析；简而言之，当使用前馈神经网络时，神经网络会认为我们x时刻输入的内容与x的下一时刻输入的内容完全无关。一般用于处理文本数据，这里将病毒序列当成一种特殊的文本数据。
本文的作者构建了两个深度学习模型。每个模型中，除输出层外，每层含有150个节点。输出层是按照可能宿主的可能性进行排序输出，这具有生物学意义，因为自然界中一个病毒可以感染多个宿主，即病毒的跨宿主传播。
第一个模型简而言之就是输入层+三层双向LSTM网络+输出层，第二个模型便是在输入层之后增加了CNN模型，用来筛选重要的序列。对每个模型首先在训练集上进行500次训练，然后在验证集上得到最高的表现（这里用准确性和分类交叉熵），而后用于测试集。
在这里插入图片描述

结果

之前提到过序列被切断为子序列，因此不同子序列得到的结果应该如何组合？作者又提出了四种方案，就是统计学的方法。关于它的结果我觉得没有什么意义去讨论，肯定是比它参考的要好。这篇文章的亮点可能是将病毒序列当成一种特殊的文本去处理，以及数据处理过程中去除偏向性的方法。
如果大家要使用这个预测模型可以参考作者的Github。
在这里插入图片描述