基于长短期记忆网络的ＣＯＶＩＤ－１９疫情趋势序列分析预测

最新推荐文章于 2024-07-10 13:12:17 发布

彭祥.

最新推荐文章于 2024-07-10 13:12:17 发布

阅读量949

点赞数

分类专栏：学习记录文章标签：网络机器学习人工智能

本文链接：https://blog.csdn.net/pengxiang1998/article/details/127109194

版权

学习记录专栏收录该内容

70 篇文章 38 订阅

订阅专栏

引言

２０２０年伊始，新冠状病毒席卷全球，新冠状病毒通过空气与人体器官嘴、眼皮、鼻腔和口腔中的粘膜接触，释放病毒遗传物质ＲＮＡ单链作为信使ＲＮＡ绕过细胞核糖体合成ＲＮＡ复制酶［１］。ＲＮＡ复制酶根据病毒ＲＮＡ生成ＲＮＡ负链继续和复制酶生成ＲＮＡ片段、ＲＮＡ
正链，不同ＲＮＡ片段与核糖体生成更多病毒蛋白质结构，蛋白质外壳与ＲＮＡ组合生成新冠状病毒颗粒通过高尔基体分泌至细胞外以感染新的细胞［２］，以上就是新冠状病毒感染患者的生物传播过程［３］。由于新冠状病毒极容易在空气中通过飞沫传播，截止到２０２０年７月１３日全球疫情数据：现存确诊５３４４８２５例，累计确诊１２８４６２４２例，累计死亡５６７９７６例，累计治愈６９３３４４１例。其中美国新冠肺炎病亡人数超过１３万，全球居首［４］。本文采取国外疫情数据作为数据本集。在模型的选择上，机器学习主张机器自己从数据中学习知识，需要人工提取特征，常见的算法有线性回归、分类、聚类算法等如ＳＶＭ、决策树、Ａｄａｂｏｏｓｔ、ＰＣＡ降维等。而深度学习实质是人工神经网络，可看作是一种层数较深的人工神经网络，常见的有ＣＮＮ、ＲＮＮ。为了能实现疫情数据的序列化预测，实验选择深度学习模型ＲＮＮ循环神经网络变体长短期记忆网络ＬＳＴＭ长短期记忆网络模型对国外疫情数据进行序列预测。

ＲＮＮ循环神经网络

人工神经网络（Artifical Neural Network，ＡＮＮ）模型，简称神经网络或类神经网络。在机器学习科学领域是一种模仿生物中枢神经系统的结构（如图１所示），神经网络由大量的人工神经元联结进行计算，人工神经网络在外界信息的基础上改变内部结构，具备自身学习功能的自适应系统［７］。现代神经网络是一种非线性统计性数据建模人工神经网络，通过一个基于数学统计学类型的学习方法得以优化。以多层感知机、卷及神经网络ＣＮＮ为例，ＡＮＮ是用来处理静态数据，对向量进行加权求和求偏值。

在这里插入图片描述
人工神经网络处理静态数据，静态数据样本数据之间互相独立，没有依赖关系，通过输入向量进行数学模型训练，得出结果再进行反向传播，以纠正权重。循环神经网络（Recurrent Neural Network，ＲＮＮ）是深度学习领域中一类特殊的内部存在自连接的神经网络。如图２所示，ＲＮＮ由３个层次构成，从下至上：输入层ｘ_ｔ、隐藏层Ａ、输出层ｈ_ｔ。其中隐藏层含多层结构。
在这里插入图片描述

静态数据与序列数据不同，静态数据类比用相同方式训练不同数据，数据之间没有依赖关系。序列数据更强调相互关联性，以固定time step（时间步）要求输入和输出序列必须是等长。当ｔ＝０时输出，再依次向后计算，每个时间步的输出值与前面时间步的输出相关且相等。
图３是ＲＮＮ循环神经网络基本单元ｃｅｌｌ：所有的递归神经网络都是由重复神经网络模块构成的一条链，处理层由一个 tanh 层激活函数组成，通过当前输入及上一时刻的输出来得到当前输出。数据流向通过ｘ_ｔ作为向量输入到Ａ隐藏层，经过计算一部分输出到输出层进行计算，另一部分流入下一个时序的隐藏层，在下一个时序的隐藏层接受来自上一个时序输出的数据和本时序的输入数据，２个数据通过ｃｏｎｃａｔ函数连接，合并２个输入，且维度等于隐藏层的神经元维度，２个合并数据作为整体向隐藏层输入，在隐藏层进行加权求和。
在这里插入图片描述

循环神经网络正向传播与反向传播

ＲＮＮ循环神经网络正向传播机制：输入数据输入有２个，当前时刻的输入和上一时刻的状态。ｃｅｌｌ处理公式：ｆ_ｔａｎｈ（ｗｘ＋ｂ），结果一个拷贝传给下一时刻（之间有权值连接），一个传给输出层，作为其输入
ｃｅｌｌ的输出作为输出层的输入，进行全连接操作。
假设：输入向量的维度为ｘ，状态的维度为ｈ，拼接输入向量维度为ｘ＋ｈ，循环体的参数为（ｘ＋ｈ）＊ｈ＋ｈ，假设输出向量的维度为ｙ，输出层的参数为ｈ＊ｙ＋ｙ。
ＲＮＮ循环神经网络的反向传播ＢＰＴＴ（back propagation through time）的链式求导算法来反向传播。
反向传播权重的反推公式：

Ｕ_ｔ＋１＝Ｕ_ｔ＋ηΔＵ
Ｖ_ｔ＋１＝Ｖ_ｔ＋ηΔＶ_ｔ
Ｗ_ｔ＋１＝Ｗ_ｔ＋ηΔＷ_ｔ

反向传播利用对输出层的参数求导再对输入层和隐藏层求导，分别不依赖时间和依赖时间。

ＲＮＮ缺陷

长时间以来的ＲＮＮ循环神经网络序列问题未能及时处理问题时，容易出现梯度消失或梯度爆炸。
图４是短时间序列问题：相关的信息和预测的词位置之间的间隔是非常小的，ＲＮＮ可以学会使用先前的信息［１３］。
图５是长时间序列问题：相关信息和当前预测位置之间的间隔比较大，需要“记忆”先前提到的离当前位置很远的上下文内容。
在这里插入图片描述
为处理长序列依赖问题，ＬＳＴＭ模型能够有效克服ＲＮＮ中存在的梯度消失问题，尤其在长距离依赖的任务中的表现远优于ＲＮＮ。图６中矩形为神经网络层，带有权重和偏值用于加权运算。圆形部分为线形运算，进行简单线性运算。双箭头融合是指向量拼接，当输入神经元输入一维向量，上一个时序的输出到该时序二维向量，此时拼接后的向量为三维向量。箭头分离为向量拷贝，指把一个向量值分别传给２个流向，到下一个时序以及输出到此时序的输出神经元。
在这里插入图片描述
图７是ＬＳＴＭ模型的核心元素单元结构，是该模型中的传送带，在系统中呈一条长直链，仅存储线性关系。信息往下一级传递且不会改变。在模型中用于存储记忆，跨时间步链接，cell state决定该模型中的数据抛弃什么，传输什么。被抛弃的数据在矩阵运算时用０加权。
在这里插入图片描述
遗忘门的作用（如图８所示）：决定旧的信息哪些信息丢掉，哪些保留cell state。该门读取当前的输入ｘ_ｔ和ｔ－１时刻神经元状态信息ｈ_ｔ－１作为输入，
做加权求和，再经过 sigmoid 激活函数转换，输出一个在０～１之间的数值给Ｃ_ｔ－１。输出结果１表示“完全保留”，０表示“完全舍弃”。输入门作用：决定哪些新的信息将被加入cell state。输入门分为２个部分：

１）一部分由Ｓｉｇｍｏｉｄ激活层构成，它决定哪些值要更新；
２）另一部分由Ｔａｎｈ函数层构成，新候选的向量生成器。

在这里插入图片描述
状态更新：ｔ－１时刻的状态乘“遗忘门”的输出，加上新的候选信息，组成当前的 cell state。
输出门作用：决定最后的输出结果。
首先运行一个 sigmoid 层来确定 cell state 的哪个部分将输出出去。接着把cell state通过 tanh 进行处理（得到一个－１～１之间的值）并将它和sigmoid 门的输出相乘，得到最后输出。

ｉ_ｔ＝δ（Ｗ_ｉ［ｈ_ｔ－１，ｘ_ｔ］＋ｂ_ｉ）（４）
Ｃ_ｔ＝ｔａｎｈ（Ｗ_ｃ［ｈ_ｔ－１，ｘ_ｔ］＋ｂ_ｃ）（５）
Ｃ_ｔ＝ｆ_ｔ ×Ｃ_ｔ－１＋ｉ_ｔ ×Ｃ_ｔ（６）
Ｏ_ｔ＝δ（Ｗ_ｏ［ｈ_ｔ－１，ｘ_ｔ］＋ｂ_ｏ）（７）
Ｈ_ｔ＝Ｏ_ｔ ×ｔａｎｈ（Ｃ_ｔ）（８）

ＬＳＴＭ通过“遗忘门”控制之前的信息的输入程度，通过“输入门”控制当前信息的输入程度，通过“输出门”控制最终的输出以解决ＬＳＴＭ模型的长期依赖问题，同时选择 sigmoid 激活函数作为选择工具，用０～１来做权重的二次分配，并且用ｔａｎｈ函数作为变化工具。当前的单元信息是通过输入门控制之后叠加来解决梯度消失问题。

实验

搭建实验环境

使用框架搭建网络，实验中Ｋｅｒａｓ框架由纯Ｐｙｔｈｏｎ编写的基于Ｔｅｎｓｏｒｆｌｏｗ为后端。Ｋｅｒａｓ是一个高层神经网络的ＡＰＩ，可以迅速地将想法转换为结果，允许简单而快速的原型设计，更适配卷积神经网络，模型库中含有很多经典的模型使得深度学习的建模与算法设计较为方便。
在这里插入图片描述

实验过程与结果

１）分析实验任务：疫情预测任务是一个时序预测任务，根据前３天预测第４天累计确诊人数，实验选择ＲＮＮ循环神经网络变体ＬＳＴＭ模型。
２）分析原始数据，筛选需要数据：实验采用的数据集为国外某国家在２０２０年２月２２日—２０２０年７月１３日期间爆发的新型冠状病毒（ＣＯＶＩＤ－１９）肺炎中新增确诊人数、现有确诊人数、治愈、死亡、累计
确诊人数。由于国内疫情数据干扰因素较多，规律不可循，因此使用国外疫情数据。数据集中新增确诊人数、现有确诊人数、治愈、死亡为输入元素Ｘ，累计确诊人数为输出元素Ｙ。其中训练集１１０条，测试集１９条。
在这里插入图片描述
３）数据预处理，并制成数据集（如图９所示）：筛选数据集中必要数据，剔除干扰元素。
４）对必要数据进行归一化处理：
ｘ＝ｎｏｒｍａｌｉｚｅｄ＿ｔｒａｉｎ＿ｄａｔａ［ｉ：ｉ＋ｔｉｍｅ＿ｓｔｅｐ，：４］
ｙ＝ｎｏｒｍａｌｉｚｅｄ＿ｔｒａｉｎ＿ｄａｔａ［ｉ＋ｔｉｍｅ＿ｓｔｅｐ：ｉ＋１＋ｔｉｍｅ＿ｓｔｅｐ，１３，ｎｐ．ｎｅｗａｘｉｓ］

５）用原始值减去数据均值除以标准差，用ｎｕｍｐｙ对训练数据进行减均值操作。
６）模型搭建：根据数据和任务，分析输入和输出节点如何设定，模型具体使用什么结构。
根据疫情数据中新增确诊人数、现有确诊人数、治愈、死亡、累计确诊人数等元素对下一日累计确诊人数预测。ＲＮＮ层在输入后的线性转换步骤添加随机失活，在循环阶段的线性转换也添加随机失活，失活概率都为０．２。
在这里插入图片描述
在进行实验时，首先打开数据集，读取数据的１～５列。在第二条语句中样本序列长度（ｔｉｍｅｓｔｅｐ）为１４，每个数据输入维度４，全连
接层的ｄｒｏｐｏｕｔ为０．２，循环体中的ｄｒｏｐｏｕｔ比例为０．２。定义损失函数为交叉熵，优化方法为Ａｄａｍ，模型评价标准为分类正确率。实验设定Ｂａｔｃｈｓｉｚｅ＝５００，ｅｐｏｃｈ＝５００。在图１０中样本集的折线为深色，测试集的折线为浅色。可以看出实验结果与真实数据匹配度较高，实验没有出现梯度消失以及梯度爆炸等问题。ＬＳＴＭ模型适合用于做疫情序列问题预测模型。

结语

本文在Ｂｅｎｇｉｏ等提出标准ＲＮＮ循环神经网络的基础上，将ＧｒｅｆｆＫｌａｕｓ等提出的长短期记忆网络模型应用在长序列疫情预测，实验结果与真实数据高精度匹配，说明ＬＳＴＭ较长短期记忆网络模型适用于做长序列预测，在以后的疫情实验中可做进一步的研究和讨论。

彭祥.

关注

0
点赞
踩
8

收藏

觉得还不错? 一键收藏
打赏
0
评论
基于长短期记忆网络的ＣＯＶＩＤ－１９疫情趋势序列分析预测

ＬＳＴＭ通过“遗忘门”控制之前的信息的输入程度，通过“输入门”控制当前信息的输入程度，通过“输出门”控制最终的输出以解决ＬＳＴＭ模型的长期依赖问题，同时选择 sigmoid 激活函数作为选择工具，用０～１来做权重的二次分配，并且用ｔａｎｈ函数作为变化工具。作为向量输入到Ａ隐藏层，经过计算一部分输出到输出层进行计算，另一部分流入下一个时序的隐藏层，在下一个时序的隐藏层接受来自上一个时序输出的数据和本时序的输入数据，２个数据通过ｃｏｎｃａｔ函数连接，合并２个输入，其中训练集１１０条，测试集１９条。
复制链接

扫一扫