关键词短语生成的无监督方法06——Model.py

本文分析了基于LSTM和BiLSTM的关键词短语生成模型,解释了LSTM的工作原理及在编码器-解码器结构中的作用。源码分析部分介绍了torch库在构建神经网络中的应用,包括torch.nn和torch.optim。总结了理论分析和代码学习的成果,并预告了对Encoder类的进一步探讨。
摘要由CSDN通过智能技术生成

2021SC@SDUSC


在前两周展开了对Encoder-Decoder模型的学习后,应用于论文上的模型编码解码器实现,对论文方法实现有了进一步理解。

一、论文模型分析

阅读论文可知,编码器由BiLSTM实现,解码器由LSTM实现。

LSTM:全称Long Short-Term Memory,是RNN(Recurrent Neural Network)的一种。LSTM由于其设计的特点,非常适合用于对时序数据的建模,如文本数据。

BiLSTM:Bi-directional Long Short-Term Memory的缩写,是由前向LSTM与后向LSTM组合而成。

简单介绍下LSTM的原理:
在这里插入图片描述

编码器将文档x中的一系列tokens映射到一系列连续的隐藏状态hidden representations (henc1,…,henc|x|) 上。其中,|x|为文档的长度。

然后,RNN解码器依照这些hidden representations,一个一个地用自回归的方式生成目标关键短语 (y1,y2,…,y|y|) 。其中,|y|表示关键短语中tokens的数量。

整体公式如下:
在这里插入图片描述
其中,henct,hdect分别是t时刻编码器和解码器的隐藏状态;fenc和fdec分别是LSTM实现的自回归函数;ot-1是t-1时刻解码器预测的输出;c是通过非线性函数q计算出的源于编码器所有隐藏状态的文本向量。

第一个式子表示当前时间的隐藏状态hidden representations是由上一时间的状态和当前时间输入决定。
第二个式子是在获得了各个时间段的隐藏层以后,将隐藏层的信息汇总,生成的最后的语义向量c。

在t时刻,yt的预测值取决于固定词汇的分布,并且以源henc和t-1时刻输出的的hdect-1为条件。如下图所示。fout是非线性函数,是一个典型的具有注意力机制的能输出预设词汇表V中所有单词的可能性的分类器。
在这里插入图片描述

二、Model.py部分源码分析

关键包的导入及其说明

import torch.nn as nn
import torch.nn.functional as F
import torch
from torch.autograd import Variable
import numpy as np
import random

解析:

  • torch库,是使用pytorch搭建神经网络的时候较为常用的库,主要是用于多维张量的数据结构和用于张量的数学操作。除此之外,还提供了许多用于张量有效序列化和任意类型的工具,还有一些其他相关的工具。

    其中,torch库中较为常用的是torch.nn和torch.optim。torch.nn包中主要包含了用来搭建各个层的模块(Modules),比如全连接、二维卷积、池化等;以及一系列在训练神经网络时必不可少的loss函数,比如CrossEntropyLoss、MSELoss等。torch.nn.functional子包中包含了常用的激活函数,如relu、leaky_relu、prelu、sigmoid等。

    使用torch.nn包定义网络有两种常用的方法,一种是继承nn.Module类的方式,这种方式能够实现网络结构的自定义,尤其是当需要实现共享参数时,我们可以简单地在forward函数中重复使用同一个定义在__init__函数中的层;另外一种是使用torch.nn.Sequential进行定义,这种定义方法相对于第一种更加方便快捷就像在TensorFlow中定义网络一样。

由于Encoder、Decoder类中均以继承nn.Module类的方式实现网络结构的自定义。故我进行了通过继承nn.Module类的实现方式的用法,记录如下:

import torch.nn as nn
import torch.nn.functional as F
 
class Net(nn.Module):
    def __init__(self):   #在__init__函数中定义层
        super(Net, self).__init__()  #继承nn.Module
        self.conv1 = nn.Conv2d(3, 6, 5)
        self.pool = nn.MaxPool2d(2, 2)
        self.conv2 = nn.Conv2d(6, 16, 5)
        self.fc1 = nn.Linear(16 * 5 * 5, 120)
        self.fc2 = nn.Linear(120, 84)
        self.fc3 = nn.Linear(84, 10)
 
    def forward(self, x):   #在forward函数中重复使用同一个定义在__init__函数中的层
        x = self.pool(F.relu(self.conv1(x)))
        x = self.pool(F.relu(self.conv2(x)))
        x = x.view(-1, 16 * 5 * 5)
        x = F.relu(self.fc1(x))
        x = F.relu(self.fc2(x))
        x = self.fc3(x)
        return x
 
net = Net()

定义好网络之后,需要定义损失函数和优化方法。

import torch.optim as optim

 #损失函数定义
loss_fn = nn.CrossEntropyLoss()  
 #优化器定义
optimizer = optim.SGD(net.parameters(), lr=0.001, momentum=0.9) 

定义好了网络、损失函数、优化器之后,训练网络的常规做法如下:

#将输入输进网络得到输出y_pred
y_pred = model(x)
#运用上面定义的loss函数计算网络输出与标签之间的距离
loss = loss_fn(y_pred, y)
#在反向传播之前需要将优化器中的梯度值清零,因为在默认情况下反向传播的梯度值会进行累加
optimizer.zero_grad()
#进行反性传播,计算损失函数对于网络参数的梯度值
loss.backward()
#按照梯度值与优化器的定义来改变网络参数值,使其朝着输出更好结果的方向改变
optimizer.step()

三、总结

本周对论文中使用的Encoder-Decoder模型展开了理论上的分析,并学习了源码中torch库的相关知识以及在接下来代码中的用法。下周将对Model.py中Encoder类展开具体分析。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值