pytorch dataloader_PyTorch中的可迭代数据集重采样

最新推荐文章于 2024-03-18 20:26:07 发布

VIP文章 weixin_39839018

最新推荐文章于 2024-03-18 20:26:07 发布

阅读量960

点赞数

文章标签： pytorch dataloader pytorch dataset pytorch dataset dataloader pytorch安装到一半中断 torch dataloader 数据并行样本不平衡 pytorch

动机

不平衡学习是一种机器学习范例，其中分类器必须从具有倾斜的类分布的数据集中学习。不平衡的数据集可能对分类器的性能产生不利影响。

重新平衡数据集是处理类不平衡的一种方法。这可以通过以下方式完成：

采样不足的普通类。
对稀有类进行过度采样。
两者兼而有之。

PyTorch提供了一些用于重新平衡数据集的实用程序，但它们仅限于已知长度的批处理数据集(即，它们要求数据集具有__len__方法)。诸如ufoym / imbalanced-dataset-sampler之类的社区贡献很可爱，但它们也仅适用于批处理数据集(在PyTorch行话中也称为地图样式数据集)。 pytorch / pytorch存储库上还存在一个GitHub问题，但它似乎不太活跃。

因此，该存储库实现了包装IterableDataset的数据重采样器。在此拉取请求中，后者已添加到PyTorch。特别是，提供的方法不需要您必须事先知道数据集的大小。每种方法都适用于二进制和多类分类。

安装

$ pip install pytorch_resample

用法

作为一个正在运行的示例，我们将定义一个IterableDataset，它对scikit-learn的make_classification函数的输出进行迭代。

>>> from sklearn import datasets>>> import torch>>> class MakeClas

最低0.47元/天解锁文章

weixin_39839018

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
pytorch dataloader_PyTorch中的可迭代数据集重采样

动机不平衡学习是一种机器学习范例，其中分类器必须从具有倾斜的类分布的数据集中学习。不平衡的数据集可能对分类器的性能产生不利影响。重新平衡数据集是处理类不平衡的一种方法。这可以通过以下方式完成：采样不足的普通类。对稀有类进行过度采样。两者兼而有之。PyTorch提供了一些用于重新平衡数据集的实用程序，但它们仅限于已知长度的批处理数据集(即，它们要求数据集具有__len__方法)。诸如ufoym / ...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。