关键词短语生成的无监督方法06——Model.py

最新推荐文章于 2025-04-30 16:06:04 发布

楚庄公子

最新推荐文章于 2025-04-30 16:06:04 发布

阅读量170

点赞数

分类专栏：笔记文章标签：深度学习神经网络自然语言处理

本文链接：https://blog.csdn.net/NothingLearnt/article/details/121072434

版权

笔记专栏收录该内容

9 篇文章

订阅专栏

本文分析了基于LSTM和BiLSTM的关键词短语生成模型，解释了LSTM的工作原理及在编码器-解码器结构中的作用。源码分析部分介绍了torch库在构建神经网络中的应用，包括torch.nn和torch.optim。总结了理论分析和代码学习的成果，并预告了对Encoder类的进一步探讨。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

2021SC@SDUSC

文章目录

在前两周展开了对Encoder-Decoder模型的学习后，应用于论文上的模型编码解码器实现，对论文方法实现有了进一步理解。

一、论文模型分析

阅读论文可知，编码器由BiLSTM实现，解码器由LSTM实现。

LSTM：全称Long Short-Term Memory，是RNN（Recurrent Neural Network）的一种。LSTM由于其设计的特点，非常适合用于对时序数据的建模，如文本数据。

BiLSTM：Bi-directional Long Short-Term Memory的缩写，是由前向LSTM与后向LSTM组合而成。

简单介绍下LSTM的原理：
在这里插入图片描述

编码器将文档x中的一系列tokens映射到一系列连续的隐藏状态hidden representations (henc¹,…,henc^|x|) 上。其中，|x|为文档的长度。

然后，RNN解码器依照这些hidden representations，一个一个地用自回归的方式生成目标关键短语 (y¹,y²,…,y^|y|) 。其中，|y|表示关键短语中tokens的数量。

整体公式如下：
在这里插入图片描述
其中，henc^t，hdec^t分别是t时刻编码器和解码器的隐藏状态；fenc和fdec分别是LSTM实现的自回归函数；o^t-1是t-1时刻解码器预测的输出；c是通过非线性函数q计算出的源于编码器所有隐藏状态的文本向量。

第一个式子表示当前时间的隐藏状态hidden representations是由上一时间的状态和当前时间输入决定。
第二个式子是在获得了各个时间段的隐藏层以后，将隐藏层的信息汇总，生成的最后的语义向量c。

在t时刻，y^t的预测值取决于固定词汇的分布，并且以源henc和t-1时刻输出的的hdec^t-1为条件。如下图所示。fout是非线性函数，是一个典型的具有注意力机制的能输出预设词汇表V中所有单词的可能性的分类器。
在这里插入图片描述

二、Model.py部分源码分析

关键包的导入及其说明

import torch.nn as nn
import torch.nn.functional as F
import torch
from torch.autograd import Variable
import numpy as np
import random

解析：

torch库，是使用pytorch搭建神经网络的时候较为常用的库，主要是用于多维张量的数据结构和用于张量的数学操作。除此之外，还提供了许多用于张量有效序列化和任意类型的工具，还有一些其他相关的工具。

其中，torch库中较为常用的是torch.nn和torch.optim。torch.nn包中主要包含了用来搭建各个层的模块（Modules），比如全连接、二维卷积、池化等；以及一系列在训练神经网络时必不可少的loss函数，比如CrossEntropyLoss、MSELoss等。torch.nn.functional子包中包含了常用的激活函数，如relu、leaky_relu、prelu、sigmoid等。

使用torch.nn包定义网络有两种常用的方法，一种是继承nn.Module类的方式，这种方式能够实现网络结构的自定义，尤其是当需要实现共享参数时，我们可以简单地在forward函数中重复使用同一个定义在__init__函数中的层；另外一种是使用torch.nn.Sequential进行定义，这种定义方法相对于第一种更加方便快捷就像在TensorFlow中定义网络一样。

由于Encoder、Decoder类中均以继承nn.Module类的方式实现网络结构的自定义。故我进行了通过继承nn.Module类的实现方式的用法，记录如下：

import torch.nn as nn
import torch.nn.functional as F
 
class Net(nn.Module):
    def __init__(self):   #在__init__函数中定义层
        super(Net, self).__init__()  #继承nn.Module
        self.conv1 = nn.Conv2d(3, 6, 5)
        self.pool = nn.MaxPool2d(2, 2)
        self.conv2 = nn.Conv2d(6, 16, 5)
        self.fc1 = nn.Linear(16 * 5 * 5, 120)
        self.fc2 = nn.Linear(120, 84)
        self.fc3 = nn.Linear(84, 10)
 
    def forward(self, x):   #在forward函数中重复使用同一个定义在__init__函数中的层
        x = self.pool(F.relu(self.conv1(x)))
        x = self.pool(F.relu(self.conv2(x)))
        x = x.view(-1, 16 * 5 * 5)
        x = F.relu(self.fc1(x))
        x = F.relu(self.fc2(x))
        x = self.fc3(x)
        return x
 
net = Net()

定义好网络之后，需要定义损失函数和优化方法。

import torch.optim as optim

 #损失函数定义
loss_fn = nn.CrossEntropyLoss()  
 #优化器定义
optimizer = optim.SGD(net.parameters(), lr=0.001, momentum=0.9)

定义好了网络、损失函数、优化器之后，训练网络的常规做法如下：

#将输入输进网络得到输出y_pred
y_pred = model(x)
#运用上面定义的loss函数计算网络输出与标签之间的距离
loss = loss_fn(y_pred, y)
#在反向传播之前需要将优化器中的梯度值清零，因为在默认情况下反向传播的梯度值会进行累加
optimizer.zero_grad()
#进行反性传播，计算损失函数对于网络参数的梯度值
loss.backward()
#按照梯度值与优化器的定义来改变网络参数值，使其朝着输出更好结果的方向改变
optimizer.step()