【深度学习-CNN】训练样本不平衡对训练结果的影响

最新推荐文章于 2024-08-05 10:01:34 发布

dzkd1768

最新推荐文章于 2024-08-05 10:01:34 发布

阅读量1.9w

点赞数 9

文章标签：深度学习 cnn 训练技巧

今天在网上看到这篇文章The Impact of Imbalanced Training Data for Convolutional Neural Networks，里面做了一系列实验讨论训练样本对CNN的影响。

作者前面先是介绍了CNN和深度学习的相关知识，然后介绍了几个流行的数据集，ImageNet、mnist、CIFAR-10 and CIFAR-100。

然后利用较小的CIFAR-10来做验证。所谓的样本不平衡指的是各个类别的样本数量差别很大。一般的机器学习算法在这样的数据下表现都不好，那么对CNN有什么影响呢。

CIFAR-10是一个简单的图像分类数据集。共有10类（airplane，automobile，bird，cat，deer，dog， frog，horse，ship，truck），每一类含有5000张训练图片，1000张测试图片。网络使用的是CIFAR-10的结构。

第一个实验：

上图中，每一行是一组数据，共十种类别，其中的数字是指每类占总数的比例。可以看到dist.1是完全平衡的，后面的不平衡性越来越大。

Dist. 1：类别平衡，每一类都占用10%的数据。

Dist. 2、Dist. 3：一部分类别的数据比另一部分多。

Dist. 4、Dist 5：只有一类数据比较多。

Dist. 6、Dist 7：只有一类数据比较少。

Dist. 8：数据个数呈线性分布。

Dist. 9：数据个数呈指数级分布。

Dist. 10、Dist. 11：交通工具对应的类别中的样本数都比动物的多

对每一份训练数据都进行训练，测试时用的测试集还是每类1000个的原始测试集，保持不变。

下面我们来看看训练结果：

上表的每一列代表这种类别在十一次实验中的准确率，最左边的一列是总的准确率。可以看出总的准确率表现不错的几组1,2,6,7,10,11都是大部分类别平衡，一两类差别较大；而表现很差的，像5,9可以说是训练失败了，他们的不平衡性也比前面的要强。

下面是经过过采样的样本训练的结果：

可以看到经过过采样将类别数量平衡以后，总的表现基本相当。

上图是过采样前后的训练结果对比，深色是未经过过采样的，浅色的经过过采样的。所以得到的结论是在训练之前需要将数据库平衡化，可以采取过采样的方式。

这个结论也是实验得出的，在实际应用中是个经验公式。

关注

9
点赞
踩
29

收藏

觉得还不错? 一键收藏
4
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

dzkd1768 CSDN认证博客专家 CSDN认证企业博客

码龄10年

10: 原创

31万+: 周排名

171万+: 总排名

12万+: 访问

: 等级

868: 积分

23: 粉丝

31: 获赞

46: 评论

86: 收藏

私信

关注

热门文章

最新评论

【深度学习-CNN】训练样本不平衡对训练结果的影响
halo～*: 数据不平衡会对训练准确率有影响吗
【深度学习-CNN】训练样本不平衡对训练结果的影响
dzkd1768: 测试时模型已经固定，是没有影响的。训练集偏斜是会导致训练模型出现偏向一部分，会影响后续全部的推理结果，所以需要纠正。
【深度学习-CNN】CNN中的参数与计算量
lmw0320: 我有几点不太明白的： 1. 对于模型的前后向传播，其也只是参数的前后向传播计算，为什么会涉及到图片呢？？也就是说，计算图片占用的空间大小时，不应该考虑这个前后向的翻倍计算吧？？ 2. 上述的计算过程，是针对模型训练过程的计算。而对于模型验证，其不存在反向传播的计算，此处的空间占用计算，则不应该设置这个前后向传播吧？？ 3. 这里的GPU显存计算，对CPU理论上也是相同的吧？毕竟对显卡或内存来说，其都是一个浮点数占用4个字节的空间大小?
【深度学习-CNN】训练样本不平衡对训练结果的影响
qq_41983873: 所以测试集的质量也很重要，现在我看到的研究有关于数据集的质量评估：deep mutation这篇论文利用变异测试来评估测试集的质量。
【目标检测】OpenCV中dnn模块的SSD demo运行
阿翔要努力变强: 博主请问您可以分享一下您编译好的opencv3.1和contrib库吗？真的很需要！谢谢谢谢!!!!!

最新文章

目录

评论 4

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。