迁移学习的使用技巧和在不同数据集上的选择
1.迁移学习是指调整预训练的神经网络并应用到新的不同数据集上。
-
根据以下两个方面:新数据集的大小,以及新数据集和原始数据集之间的相似性
使用迁移学习的方式将不同。包括以下四大情形:
新数据集很小,新数据和原始训练数据相似
新数据集很小,新数据和原始训练数据不同
新数据集很大,新数据和原始训练数据相似
新数据集很大,新数据和原始训练数据不同 -
大型数据集可能有 100 万张图像。小型数据集可能有 2000 张图像。大型数据集和小型数据集的划分依据具有主观性。对小型数据集使用迁移学习时需要注意过拟合问题。
小狗图像和狼图像属于相似的图像;它们具有共同的特征。花朵图像数据集和小狗图像数据集则很不同。
四种迁移学习情形分别具有自己的应用方式。在下面的几个部分,我们将分别讨论每种情形。
情形1:小数据集,相似数据
如果新数据集很小,并且与原始训练数据相似:
删除神经网络的末尾层级
添加一个新的全连接层,输出数量与新数据集中的类别数量一样
随机化新全连接层的权重;冻结预训练网络的所有权重
训练网络以更新新全连接层的权重
为了避免过拟合小数据集,原始网络的权重将保持不变,而不是重新训练权重。
由于数据集相似,所以两个数据集的图像将具有相似的更高级特征。所以,大多数或所有预训练神经网络层级已经包含关于新数据集的相关信息,应该保留这些信息。
情形2:小数据集,不同数据
如果新数据集很小,并且与原始训练数据不同:
删除靠近网络开头的大多数预训练层级
在剩余预训练层级后面添加一个新的全连接层,输出数量与新数据集中的类别数量一样
随机化这个新的全连接层的权重;冻结预训练网络的所有权重
训练网络以更新这个新的全连接层的权重
由于数据集很小,所以依然需要避免过拟合问题。为了避免过拟合,原始神经网络的权重将保持不变,与第一种情形一样。
但是原始训练集和新数据集的更高级特征不一样。在这种情形下,新网络将仅使用包含更低级特征的层级。
情形3:大数据集,相似数据
如果新数据集很大,并且与原始训练数据相似:
删除最后的全连接层,并替换为输出数量与新数据集中的类别数量一样的层级
随机初始化新全连接层的权重
使用预训练的权重初始化剩余的权重
重新训练整个神经网络
用大型数据集训练时,过拟合并不是严重的问题,所以可以重新训练所有权重。
因为原始训练集和新数据集的更高级特征一样,所以使用整个神经网络。
情形4:大数据集,不同数据
如果新数据集很大,并且与原始训练数据不同:
删除最后的全连接层,并替换为输出数量与新数据集中的类别数量一样的层级
从头训练网络,并随机初始化权重
或者采用和“大型数据集,相似数据”情形一样的策略
虽然数据集和训练数据不同,但是将初始权重设为预训练网络中的权重可能会加快训练速度。所以这种情形和“大型数据集,相似数据”情形完全一致。
如果将预训练网络设为起始网络没有生成成功的模型,你可以选择去随机初始化卷积神经网络权重,并从头训练网络。