作者丨薛洁婷
学校丨北京交通大学硕士生
研究方向丨图像翻译
研究动机
持续学习是指希望模型能和人一样能基于过去的先验知识来快速准确的解决当前任务,然而对于人类而言与生俱来的能力对于模型来说却宛如大海捞针般困难。
当我们使用新的数据集去训练已有的模型时,该模型将会失去对原数据集识别的能力即模型会发生灾难性遗忘问题(如图 1 所示:edges-shoes 模型在经过 segmentations-facades 训练后原有的参数被完全打乱,无法再完成 edges-shoes 任务)。
▲ 图1. 灾难性遗忘问题
这一问题对于持续学习而言是一个非常巨大的挑战,目前比较主流的解决方案是让当前任务数据集结合原数据集去训练模型,但这样会导致模型的可扩展性很差,当添加一个新的任务时存储和训练时间都会同时增加,并且有些预训练模型的数据是难以获取的,因此作者提出了更通用的持续学习模型框架,该框架用于解决条件图像生成问题。
模型介绍
Lifelong GAN 模型基于 BicycleGAN 的架构,BicycleGAN 的架构可参考 [1]。模型主要使用了知识蒸馏来解决持续学习中的灾难性遗忘问题,即模型在学习当前任务的同时需要记住原任务的知识,在具体训练中通过鼓励当前网络和原网络产生相似的结果来迫使模型从原任务的训练网络中提取出信息并且加入到当前网络中。
架构如图 2 所示,其中表示当前任务的第 t 次训练,