深度学习06 - LSTM网络-处理可变长序列输入问题_lstm如何处理不定长输入-CSDN博客

本文链接：https://blog.csdn.net/weixin_42673117/article/details/113641956

本文介绍如何处理不同长度的序列数据，以适配RNN模型。包括使用pad_sequence填充序列、pack_padded_sequence打包序列和pad_packed_sequence解压序列的方法。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1、问题

RNN的输入是按照批次来进行输入的，默认是每一批次的数据是大小相同的，但是在某些时候，比如语音识别或nlp等领域输入的数据每一批次，每一组的特征数是不同的(例如每次说的话包含的单词个数是不同的)，我们需要进行处理
在这里插入图片描述

2、解决问题

参考文档：序列长度不固定怎么办
需要使用到的函数：

torch.nn.utils.rnn.pad_sequence()
torch.nn.utils.rnn.pack_padded_sequence()
torch.nn.utils.rnn.pad_packed_sequence()

1、pad_sequence

我们构造如下矩阵，查看此函数的作用：

import torch
from torch import nn
import torch.nn.utils.rnn as rnn_utils

train_x = [torch.tensor([1, 1, 1, 1, 1, 1, 1]),
           torch.tensor([2, 2, 2, 2, 2, 2]),
           torch.tensor([3, 3, 3, 3, 3]),
           torch.tensor([4, 4, 4, 4]),
           torch.tensor([5, 5, 5]),
           torch.tensor([6, 6]),
           torch.tensor([7])]
x = rnn_utils.pad_sequence(train_x, batch_first=True)
print(x)

结果：

tensor([[1, 1, 1, 1, 1, 1, 1],
[2, 2, 2, 2, 2, 2, 0],
[3, 3, 3, 3, 3, 0, 0],
[4, 4, 4, 4, 0, 0, 0],
[5, 5, 5, 0, 0, 0, 0],
[6, 6, 0, 0, 0, 0, 0],
[7, 0, 0, 0, 0, 0, 0]])

我们看到这个函数的作用就是在每一批数据的后面进行补0，直到和最长序列长度相同，我们引入如下代码：

这样做的主要目的是为了让 DataLoader 可以返回 batch，因为 batch 是一个高维的 tensor，其中每个元素的数据必须长度相同。
为了证明DataLoader中一定是同一维度的数据：

import torch
from torch import nn
import torch.nn.utils.rnn as rnn_utils
from torch.utils.data import DataLoader
import torch.utils.data as data

train_x = [torch.tensor([1, 1, 1, 1, 1, 1, 1]),
           torch.tensor([2, 2, 2, 2, 2, 2]),
           torch.tensor([3, 3, 3, 3, 3]),
           torch.tensor([4, 4, 4, 4]),
           torch.tensor([5, 5, 5]),
           torch.tensor([6, 6]),
           torch.tensor([7])]

x = rnn_utils.pad_sequence(train_x, batch_first=True)

class MyData(data.Dataset):
    def __init__(self, data_seq):
        self.data_seq = data_seq

    def __len__(self):
        return len(self.data_seq)