1、问题
RNN的输入是按照批次来进行输入的,默认是每一批次的数据是大小相同的,但是在某些时候,比如语音识别或nlp等领域输入的数据每一批次,每一组的特征数是不同的(例如每次说的话包含的单词个数是不同的),我们需要进行处理
2、解决问题
参考文档:序列长度不固定怎么办
需要使用到的函数:
torch.nn.utils.rnn.pad_sequence()
torch.nn.utils.rnn.pack_padded_sequence()
torch.nn.utils.rnn.pad_packed_sequence()
1、pad_sequence
我们构造如下矩阵,查看此函数的作用:
import torch
from torch import nn
import torch.nn.utils.rnn as rnn_utils
train_x = [torch.tensor([1, 1, 1, 1, 1, 1, 1]),
torch.tensor([2, 2, 2, 2, 2, 2]),
torch.tensor([3, 3, 3, 3, 3]),
torch.tensor([4, 4, 4, 4]),
torch.tensor([5, 5, 5]),
torch.tensor([6, 6]),
torch.tensor([7])]
x = rnn_utils.pad_sequence(train_x, batch_first=True)
print(x)
结果:
tensor([[1, 1, 1, 1, 1, 1, 1],
[2, 2, 2, 2, 2, 2, 0],
[3, 3, 3, 3, 3, 0, 0],
[4, 4, 4, 4, 0, 0, 0],
[5, 5, 5, 0, 0, 0, 0],
[6, 6, 0, 0, 0, 0, 0],
[7, 0, 0, 0, 0, 0, 0]])
我们看到这个函数的作用就是在每一批数据的后面进行补0,直到和最长序列长度相同,我们引入如下代码:
这样做的主要目的是为了让 DataLoader 可以返回 batch,因为 batch 是一个高维的 tensor,其中每个元素的数据必须长度相同。
为了证明DataLoader中一定是同一维度的数据:
import torch
from torch import nn
import torch.nn.utils.rnn as rnn_utils
from torch.utils.data import DataLoader
import torch.utils.data as data
train_x = [torch.tensor([1, 1, 1, 1, 1, 1, 1]),
torch.tensor([2, 2, 2, 2, 2, 2]),
torch.tensor([3, 3, 3, 3, 3]),
torch.tensor([4, 4, 4, 4]),
torch.tensor([5, 5, 5]),
torch.tensor([6, 6]),
torch.tensor([7])]
x = rnn_utils.pad_sequence(train_x, batch_first=True)
class MyData(data.Dataset):
def __init__(self, data_seq):
self.data_seq = data_seq
def __len__(self):
return len(self.data_seq)