在自然语言处理领域,有些基于大数据集、深度网络模型的预训练模型。卷积神经网络一般应用于计算机视觉领域,这里面也有一些预训练模型,比如AlexNet、VGG系列、ResNet系列等。对于这些预训练模型,直接使用相应的结构和权重,将它们应用到新任务上,这个过程就是“迁移学习”.
迁移学习的图例如上所示,简单来说,就是把任务A开发的模型作为初始点,重新使用在任务B中。比如任务A是识别图片中的车辆,任务B可以是识别卡车、轿车、公交车等.
很显然,迁移学习就是让机器将在已知情况中学到的知识和积累的经验,迁移到其他不同但相关的任务中解决新的问题。这样,就可以避免针对每个目标任务构建单独训练模型,从而极大节约计算资源.
迁移学习的前提就是如何使用预训练模型。首要考虑目标模型的数据量及目标数据与源数据的相关性。一般情况根据数据集与预训练模型数据集的相似度采取不同的处理方法:
1.数据集小,数据相似度高
这种情况比较理想,具体做法:去掉输出层,然后将剩下的整个网络当作一个固定的特征