Pytorch DataLoader 变长数据处理方法

最新推荐文章于 2024-04-30 15:37:28 发布

扣德夫特

最新推荐文章于 2024-04-30 15:37:28 发布

阅读量4.6k

点赞数 3

分类专栏： Python Pytorch 文章标签： Pytorch Python 变长数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/HappyCtest/article/details/88872651

版权

关于Pytorch中怎么自定义Dataset数据集类、怎样使用DataLoader迭代加载数据，这篇官方文档已经说得很清楚了，这里就不在赘述。
现在的问题：有的时候，特别对于NLP任务来说，输入的数据可能不是定长的，比如多个句子的长度一般不会一致，这时候使用DataLoader加载数据时，不定长的句子会被胡乱切分，这肯定是不行的。解决方法是重写DataLoader的collate_fn，具体方法如下：

# 假如每一个样本为：
sample = {
   
	# 一个句子中各个词的id
	'token_list' : [5, 2, 4

最低0.47元/天解锁文章

关注

3
点赞
踩
12

收藏

觉得还不错? 一键收藏
3
评论
Pytorch DataLoader 变长数据处理方法

关于Pytorch中怎么自定义Dataset数据集类、怎样使用DataLoader迭代加载数据，这篇官方文档已经说得很清楚了，这里就不在赘述。现在的问题：有的时候，特别对于NLP任务来说，输入的数据可能不是定长的，比如多个句子的长度一般不会一致，这时候使用DataLoader加载数据时，不定长的句子会被胡乱切分，这肯定是不行的。解决方法是重写DataLoader的collate_fn，具体方法如...
复制链接

扫一扫

专栏目录

扣德夫特 CSDN认证博客专家 CSDN认证企业博客

码龄13年

13: 原创

19万+: 周排名

152万+: 总排名

6万+: 访问

: 等级

626: 积分

12: 粉丝

44: 获赞

32: 评论

307: 收藏

私信

关注

分类专栏

最新评论

多头注意力机制（Multi-head Attention）及其在PyTorch中的使用方法分析
Monster-Z: 你好，请问，其中attn_output_weights为多个head的平均权重，返回平均权重的意义在哪里呢？我实际代码开发需要多个头的attention矩阵，如果这样那我是不是要自己实现？
transformers BERT等模型在自己的数据集上fine-tune方法
muyuqing_sir: 链接更新了 https://github.com/huggingface/transformers/tree/master/examples/pytorch/language-modeling
transformers BERT等模型在自己的数据集上fine-tune方法
大雾的小屋: 作者你好，请问这个文章有什么意义呢？
借助Anaconda同时安装Python 2和Python 3（最优雅的办法）
江不江: 这里更正一下：windows操作系统下找python环境的安装地址，应该是where python
借助Anaconda同时安装Python 2和Python 3（最优雅的办法）
江不江: 确实很优雅！

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论 3

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。