pytorch教程聊天机器人（详细注释&attention&rnn输入输出shape等知识点...

最新推荐文章于 2024-08-12 07:48:03 发布

宋老板的笔记

最新推荐文章于 2024-08-12 07:48:03 发布

阅读量1.8k

点赞数 8

文章标签： pytorch rnn attention python 机器学习

本文链接：https://blog.csdn.net/weixin_41684423/article/details/113004633

版权

博客详细介绍了如何使用PyTorch实现seq2seq模型解决轨迹预测问题，包括数据预处理、模型构建、GRU组件的理解以及Luong注意力机制的解析。作者分享了在训练过程中遇到的问题及解决方案，如数据清洗、模型输入输出形状调整等，并提供了数据集下载链接和代码仓库。

摘要由CSDN通过智能技术生成

最近可能要用到seq2seq模型去解决一些轨迹预测的问题，拿pytorch教程的聊天机器人练了练手。

原文中教程已经写的比较详尽了，在此对原文教程进行一些补充说明，可能更加方便向我这样的小白入门学习。

本文是对教程的补充说明，并没有照搬所有教程中的代码，中文教程写的很不错啦，链接在下面。

pytorch中文教程：http://www.pytorch123.com/FifthSection/Chatbot/

我的git地址：https://github.com/jamjar102/pytorch_chatbot_2 这里面代码写了一些注释方便像我这样的小白follow作者的思想，并且带有数据集

数据集：我给一个网盘吧，不方便科学学习的小伙伴可以快速下载：

链接：https://pan.baidu.com/s/1XWESTyoPYv_0j-gk21Skpg
提取码：f8r6

（觉得百度云更慢的可以按照教程提供的地址下载

一）在教程->2.2 加载和清洗数据中

这块调用了normalizeString()函数，这个函数其实并不是库函数，但是原文中并没有提供

需要自己实现一下，代码如下：

import re
def normalizeString(string):
    string=re.sub("([?,;.!<>])",repl=r" \1",string=string)
    string=re.sub("[^a-zA-Z.?!]+",repl=" ",string=string)
    string=re.sub("\s+",repl=' ',string=string)
    return string.strip()

这个函数主要是进行大小写转换，去除非法字符的，就是normalize一下

二）在教程->3.为模型准备数据中

在outputVar()函数中，声明的mask变量应该转成bool型，教程中写的是mask=torch.ByteTensor(mask),如果这么写会报warning，（在pycharm中运行训练时间大幅增长）：

received a mask with dtype torch.uint8, this behavior is now deprecated,please use a mask with dtype torch.bool instead.

代码修改成如下即可：

def outputVar(l, voc):
    indexes_batch = [indexesFromSentence(voc, sentence) for sentence in l]
    max_target_len = max([len(indexes) for indexes in indexes_batch])
    padList = zeroPadding(indexes_batch)
    mask = binaryMatrix(padList)
    mask = torch.BoolTensor(mask)
    padVar = torch.LongTensor(padList)
    return padVar, mask, max_target_len

三）GRU 组件输入输出shape

在CNN中，batch的position=0，RNN中position=1

输入数据input的shape为（sentence_max_length,batch_size,1）其中1的含义是：由于每个词都是做了word2index，所以在准备数据的时候这块的维度就是1

在model encoderRNN定义中，forward前向函数中，进行了如下操作

 embedded = self.embedding(input_seq)

此时shape变成了，（sentence_max_length,batch_size,hidden_size），因为原文中作者设定了embedding后的维度为hidden_size

RNN的输出OUT的shape =（max_length，batch_size，hidden_size * num_directions） 这块原文写错了，最后一项的维度应该是hidden_size * num_directions

由于在encoder中，定义的RNN是bidirectional的，所以第三维由两个GRU的隐层输出拼接而成。[:hidden_size]为正向的隐层输出，[hidden_size:]为反向的隐层输出

 def forward(self, input_seq, input_lengths, hidden=None):
        # 将单词索引转换为词向量
        embedded = self.embedding(input_seq)  #embedding
        # 为RNN模块打包填充batch序列
        packed = nn.utils.rnn.pack_padded_sequence(embedded, input_lengths)  # todo batch 需要进行pack_padded_sequence 和  nn.utils.rnn.pad_packed_sequence
        # 正向通过GRU
        outputs, hidden = self.gru(packed, hidden)
        # 打开填充
        outputs, _ = nn.utils.rnn.pad_packed_sequence(outputs)
        # 总和双向GRU输出
        outputs = outputs[:, :, :self.hidden_size] + outputs[:, : ,self.hidden_size:]  # todo 双向RNN,output 维度为[seq_len,  batch,  hidden_size*bidirectional]
        # 返回输出和最终隐藏状态  todo 对位相加（把双向的同一个位置的两个GRU单元hidden输出 相加）
        return outputs, hidden

RNN的隐层输出的shape=（n_layers x num_directions，batch_size，hidden_size）

隐层输出就是最后GRU单元的hidden输出，所以只和RNN模型的层数、方向，batch_size，以及一个hidden的位数有关