Pre-train 与 Fine-tuning

最新推荐文章于 2024-03-09 11:39:09 发布

屋顶上的小贝

最新推荐文章于 2024-03-09 11:39:09 发布

阅读量1.2k

点赞数 1

预训练顾名思义
就是指之前被训练好的Model, 比如很大很耗时间的model, 你又不想从头training一遍。这时候可以直接download别人训练好的model，里面保存的都是每一层的parameter配置情况。(Caffe里对于ImageNet的一个model, 我记得是200+M的model大小)。你有了这样的model之后，可以直接拿来做testing, 前提是你的output的类别是一样的。

如果不一样咋办，恰巧你有图片可以做fine-tuning, 一般的做法是修改最后一层softmax层的output数量，比如从Imagenet的1000类，降到只有20个类，那么自然最后的InnerProducet层，你需要重新训练，然后再经过Softmax层，再训练的时候，可以把除了最后一层之外的所有层的learning rate设置成为0（即不可训练，冰冻起来），这样在traing过程，他们的parameter 就不会变，而把最后一层的learning rate 调的大一点，让他尽快收敛，也就是Training Error尽快等于0.

在NIH ChestXray14数据集上预先训练了InceptionResNetV2，Xception和DenseNet169
这种医疗的连Pre-train都要自己做，获得参数的预训练结果

什么叫有监督预训练？为什么要进行有监督预训练？

一句话就是冰冻部分低层，然后把高层参数初始化，再把输出的类别修改（如果是检测还要+1背景的类别）
有监督预训练也称之为迁移学习，举例说明：若有大量标注信息的人脸年龄分类的正负样本图片，利用样本训练了CNN网络用于人脸年龄识别；现在要通过人脸进行性别识别，那么就可以去掉已经训练好的人脸年龄识别网络CNN的最后一层或几层，换成所需要的分类层，前面层的网络参数直接使用为初始化参数，修改层的网络参数随机初始化，再利用人脸性别分类的正负样本图片进行训练，得到人脸性别识别网络，这种方法就叫做有监督预训练。这种方式可以很好地解决小样本数据无法训练深层CNN网络的问题，我们都知道小样本数据训练很容易造成网络过拟合，但是在大样本训练后利用其参数初始化网络可以很好地训练小样本，这解决了小样本训练的难题。
这篇文章最大的亮点就是采用了这种思想，ILSVRC样本集上用于图片分类的含标注类别的训练集有1millon之多，总共含有1000类；而PASCAL VOC 2007样本集上用于物体检测的含标注类别和位置信息的训练集只有10k，总共含有20类，直接用这部分数据训练容易造成过拟合，因此文中利用ILSVRC2012的训练集先进行有监督预训练。