知识点:
迁移学习(Transfer Learning),生成对抗网络,图像处理,上采样技术,数据扩充
一个模型所能提供的信息一般来源于2个方面,一是训练数据中蕴含的信息,二是在模型的形成过程中(包括构造,学习,推理等),人们提供的先验信息。当训练数据不足时,说明模型从原始数据中获取的信息比较少,这种情况下要保证模型的效果,就需要更多的先验信息。先验信息可以作用在模型上,例如让模型采用特定的内在结构,条件假设或添加其他一些约束条件;先验信息也可以直接作用在数据集上,即根据特定的先验假设去调整,变换或扩展训练数据,让其展现出更多的,更有用的信息,以利于后续模型的训练和学习。
在图像分类任务中,训练数据不足会带来什么问题?
具体到分类任务上,,训练数据不足带来的问题主要体现在过拟合方面。即模型在训练样本上的效果可能不错,但在测试数据集上泛化效果不佳。
如何缓解数据量不足带来的问题?
一是基于模型的方法,主要是采用降低过拟合风险的措施,包括简化模型 , (将非线性模型简化为线性模型),添加约束项以缩小假设空间(L1/L2正则项),集成学习,Dropout超参数等。
二是基于数据的方法:主要通过数据扩充,即根据一些先验知识,在保持特定信息的前提下,对原始数据进行适当变换以达到扩充数据集的效果。
具体到图像分类任务重,在保持图像类别不变的前提下,可