卷积神经网络(CNN)可以说是目前处理图像最有力的工具了。而在机器学习分类问题中,样本不平衡又是一个经常遇到的问题。最近在使用CNN进行图片分类时,发现CNN对训练集样本不平衡问题很敏感。在网上搜索了一下,发现这篇文章对这个问题已经做了比较细致的探索。于是就把它简单整理了一下,相关的记录如下。
实验数据与使用的网络
所谓样本不平衡,就是指在分类问题中,每一类对应的样本的个数不同,而且差别较大。这样的不平衡的样本往往使机器学习算法的表现变得比较差。那么在CNN中又有什么样的影响呢?作者选用了CIFAR-10作为数据源来生成不平衡的样本数据。
CIFAR-10是一个简单的图像分类数据集。共有10类(airplane,automobile,bird,cat,deer,dog, frog,horse,ship,truck),每一类含有5000张训练图片,1000张测试图片。
CIFAR-10样例如图:
训练时,选择的网络是这里的CIFAR-10训练网络和参数(来自Alex Krizhevsky)。这个网络含有3个卷积层,还有10个输出结点。
之所以不选用效果更好的CNN网络,是因为我