Compacting, Picking and Growing for Unforgetting Continual Learning
这是2019年的NIPS的文章,来自台湾中央研究院资讯科学研究所。
这篇关注深度模型压缩、关键权重选择、渐进网络扩展。呼应标题的压缩、选择、成长。
本方法在增量学习中,直接没有遗忘问题,不用记忆数据,同时能利用之前累积的知识建立一个更好的模型(比起重新训练来说)。
1.Intrduction
顺序任务学习中,如何保持对过去任务的性能。过去数据不可用,fine-tuning会导致灾难性遗忘。
-
为减轻遗忘,可对梯度或参数的正则化——比如Krikpatrik的EWC,尝试寻找两个任务之间的交集。Schwarz介绍的一种知识蒸馏方法,应用EWC,教师和学生网络。
然而这系列方法还是会渐渐遗忘,不适合顺序任务无限的情况。 -
为解决数据缺失问题,可用数据保留,记忆重放技术——数据保留直接保存重要数据或其编码,记忆重放导入额外记忆模型比如GAN,间接地保持数据信息或分布。
缺点需要积累的旧信息显式再训练,这会导致记忆空间和遗忘的二难选择。