图像变大、变小:resize
改变长宽比
不改变长宽比
变大:重采样/上采样【内插值方法】
变小:降采样/下采样【pooling:maxPooling, averagePooling】
原因
图片过大容易导致模型过大,消耗更多的显存,计算速度慢
使用场景
分类时,如判断一张图片是否是风景,图片大小并不影响特征的提取,如山脉、树木的提取,图变小,照样有。
对于特定的任务,如医疗图像,病灶的识别,是对图片的精确度有依赖的,缩小图片是会有精度损失的,此时应使用crop/切图。
数据不均衡:有的类别多,有的少
重采样
欠采样/下采样:减少大样本类别的数量,抽取
从Smaj 随机舍弃,可能损失有用信息
过采样(上采样):增加小样本类别的数量
从Smin 中重复或有放回采样,可能造成过拟合
生成新样本,SMOTE方式:
对于少数类样本 a, 随机选择一个最近邻的样本 b, 然后从 a 与 b 的连线上随机选取一个点 c 作为新的少数类样本