【Deep Learning】深度学习中数据集分布不平衡问题的解决方法
https://blog.csdn.net/heiheiya https://blog.csdn.net/heiheiya/article/details/86162747
一、标签分类不平衡
在学术中,使用的大部分数据集都是平衡的。也就是在supervised learning中,每一类别通常有数目相同的样本。而在我们采集自己的数据集训练时,获得的样本数量是不平衡的,某一类样本多,另一些样本少,甚至没有。比如某一疾病的医学影像,大部分都是健康的,只有小部分患病。
二、错分成本不平衡
同样,在学术中,数据集中每一类别的分类错误的成本通常是一样的。但实际中完全不是这样。还是以医学为例,将一个健康的人误诊为患病带来的伤害