Pytorch的DataLoarder中的collate_fn参数

摩天崖FuJunWANG

于 2022-12-20 11:44:01 发布

阅读量469

点赞数

分类专栏： python 工具使用文章标签： pytorch 深度学习 python

本文链接：https://blog.csdn.net/weixin_41806489/article/details/128382706

版权

工具使用同时被 2 个专栏收录

39 篇文章

订阅专栏

python

14 篇文章

订阅专栏

该博客介绍了如何在PyTorch中自定义DataLoader的collate_fn函数来处理批量数据。通过示例代码展示了如何进行数据标准化，包括对输入和目标序列进行padding，以确保所有样本在批处理中具有相同的长度。此外，还解释了返回的各个参数的含义，例如输入序列、序列长度、目标序列和填充标记。这有助于在训练神经网络时有效地处理变长序列。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

使用方法

作为dataLoader的形参，不传入的时候使用默认的，可以自己定义。

DataLoader(train_dataset, batch_size=batch_size, collate_fn=collate_fn, shuffle=True)

自己定义：

def collate_fn(examples):
    """
    wfj:该函数表示对于batch_size中的每一个元素做以下一下的操作，通常用来进行数据的标准化工作
    """
    print("==========================")
    print(examples)
    print(len(examples))
    lengths = torch.tensor([len(ex[0]) for ex in examples])
    inputs = [torch.tensor(ex[0]) for ex in examples]
    targets = [torch.tensor(ex[1]) for ex in examples]
    # 对batch内的样本进行padding，使其具有相同长度
    inputs = pad_sequence(inputs, batch_first=True, padding_value=vocab["<pad>"])
    targets = pad_sequence(targets, batch_first=True, padding_value=vocab["<pad>"])
    #输出的几个参数的解释：解释变量；每个解释变量的长度；被解释变量；是否为填充位的标记。
    return inputs, lengths, targets, inputs != vocab["<pad>"]