问题:深度学习中训练集需要数据增强,验证集和测试集不需要做数据增强,但是如果我的数据(小数据集1000个样本)按照700:300比例分配了训练集和验证集,再对700个训练集的样本进行数据增强(比如增强到2400张图片),训练集和验证集的比例2400:300这样分配合理吗,还是就应该这样分呢,不是要保证一定的比例吗,谢谢。
回答:1、验证集和测试集不需要扩充,数据扩充指针对训练集。
2、比例指的是对原始数据划分的比例,不考虑增强后的。
3、首先要明白做数据增强的意义,是为了利用现有训练集的数据,通过增强变换获得更丰富的信息,从而在测试集(验证机)上获得更好的泛化能力;
4、如果先做增强再进行数据集的划分,那么会出现信息泄露的问题,导致同一张图片增强后的多张图片分别出现在训练集和测试集(验证集),那么由于在训练集里见过相似度很高的图片,测试(验证)的准确率就会很高,这时的测试准确率结果是不可靠的。