文章目录
迁移学习: 把预训练模型参数迁移到新的模型上,帮助模型训练。
应用场景
数据集中只有少量的label data,直接训练效果很差,容易过拟合。
分支
模型蒸馏/压缩 Distillation
就是用户停留时长、(广告)曝光比列之类的 后验特征统计的特征,这种信号强, 只能离线获取的特征【线上无法获得】加入 模型中 去蒸馏
离线环境下,会同时训练两个模型:一个学生模型和一个教师模型。其中教师模型额外利用了优势特征,则准确率更高。将教师模型蒸馏出来的知识传递给学生模型,辅助其训练,提升学生的准确率。
线上服务时,只用学生模型进行部署,由于输入中不依赖优势特征,则保证了线上线下特征的一致性。
作用
压缩模型体积
手段
fine tune/ fine tuning:微调,一种调参手段
y=wx,若w实际为5。
如果w初始化为0,需不断反向传播更新后得到5。
但直接初始化为4.7【相当于给一个pre-trained model】,之后fine tune【后面更新w的过程】,能很快得到5<