2021SC@SDUSC
在前两周展开了对Encoder-Decoder模型的学习后,应用于论文上的模型编码解码器实现,对论文方法实现有了进一步理解。
一、论文模型分析
阅读论文可知,编码器由BiLSTM实现,解码器由LSTM实现。
LSTM:全称Long Short-Term Memory,是RNN(Recurrent Neural Network)的一种。LSTM由于其设计的特点,非常适合用于对时序数据的建模,如文本数据。
BiLSTM:Bi-directional Long Short-Term Memory的缩写,是由前向LSTM与后向LSTM组合而成。
简单介绍下LSTM的原理:
编码器将文档x中的一系列tokens映射到一系列连续的隐藏状态hidden representations (henc1,…,henc|x|) 上。其中,|x|为文档的长度。
然后,RNN解码器依照这些hidden representations,一个一个地用自回归的方式生成目标关键短语 (y1,y2,…,y|y|) 。其中,|y|表示关键短语中tokens的数量。
整体公式如下:
其中,henct,hdect分别是t时刻编码器和解码器的隐藏状态;fenc和fdec分别是LSTM实现的自回归函数;ot-1是t-1时刻解码器预测的输出;c是通过非线性函数q计算出的源于编码器所有隐藏状态的文本向量。
第一个式子表示当前时间的隐藏状态hidden representations是由上一时间的状态和当前时间输入决定。
第二个式子是在获得了各个时间段的隐藏层以后,将隐藏层的信息汇总,生成的最后的语义向量c。
在t时刻,yt的预测值取决于固定词汇的分布,并且以源henc和t-1时刻输出的的hdect-1为条件。如下图所示。fout是非线性函数,是一个典型的具有注意力机制的能输出预设词汇表V中所有单词的可能性的分类器。
二、Model.py部分源码分析
关键包的导入及其说明
import torch.nn as nn
import torch.nn.functional as F
import torch
from torch.autograd import Variable
import numpy as np
import random
解析:
-
torch库,是使用pytorch搭建神经网络的时候较为常用的库,主要是用于多维张量的数据结构和用于张量的数学操作。除此之外,还提供了许多用于张量有效序列化和任意类型的工具,还有一些其他相关的工具。
其中,torch库中较为常用的是torch.nn和torch.optim。torch.nn包中主要包含了用来搭建各个层的模块(Modules),比如全连接、二维卷积、池化等;以及一系列在训练神经网络时必不可少的loss函数,比如CrossEntropyLoss、MSELoss等。torch.nn.functional子包中包含了常用的激活函数,如relu、leaky_relu、prelu、sigmoid等。
使用torch.nn包定义网络有两种常用的方法,一种是继承nn.Module类的方式,这种方式能够实现网络结构的自定义,尤其是当需要实现共享参数时,我们可以简单地在forward函数中重复使用同一个定义在__init__函数中的层;另外一种是使用torch.nn.Sequential进行定义,这种定义方法相对于第一种更加方便快捷就像在TensorFlow中定义网络一样。
由于Encoder、Decoder类中均以继承nn.Module类的方式实现网络结构的自定义。故我进行了通过继承nn.Module类的实现方式的用法,记录如下:
import torch.nn as nn
import torch.nn.functional as F
class Net(nn.Module):
def __init__(self): #在__init__函数中定义层
super(Net, self).__init__() #继承nn.Module
self.conv1 = nn.Conv2d(3, 6, 5)
self.pool = nn.MaxPool2d(2, 2)
self.conv2 = nn.Conv2d(6, 16, 5)
self.fc1 = nn.Linear(16 * 5 * 5, 120)
self.fc2 = nn.Linear(120, 84)
self.fc3 = nn.Linear(84, 10)
def forward(self, x): #在forward函数中重复使用同一个定义在__init__函数中的层
x = self.pool(F.relu(self.conv1(x)))
x = self.pool(F.relu(self.conv2(x)))
x = x.view(-1, 16 * 5 * 5)
x = F.relu(self.fc1(x))
x = F.relu(self.fc2(x))
x = self.fc3(x)
return x
net = Net()
定义好网络之后,需要定义损失函数和优化方法。
import torch.optim as optim
#损失函数定义
loss_fn = nn.CrossEntropyLoss()
#优化器定义
optimizer = optim.SGD(net.parameters(), lr=0.001, momentum=0.9)
定义好了网络、损失函数、优化器之后,训练网络的常规做法如下:
#将输入输进网络得到输出y_pred
y_pred = model(x)
#运用上面定义的loss函数计算网络输出与标签之间的距离
loss = loss_fn(y_pred, y)
#在反向传播之前需要将优化器中的梯度值清零,因为在默认情况下反向传播的梯度值会进行累加
optimizer.zero_grad()
#进行反性传播,计算损失函数对于网络参数的梯度值
loss.backward()
#按照梯度值与优化器的定义来改变网络参数值,使其朝着输出更好结果的方向改变
optimizer.step()
三、总结
本周对论文中使用的Encoder-Decoder模型展开了理论上的分析,并学习了源码中torch库的相关知识以及在接下来代码中的用法。下周将对Model.py中Encoder类展开具体分析。