深度学习（增量学习）—— Continual Learning by Asymmetric Loss Approximation with Single-Side Overestimation

最新推荐文章于 2024-08-14 17:11:04 发布

菜到怀疑人生

最新推荐文章于 2024-08-14 17:11:04 发布

阅读量1.3k

点赞数 2

分类专栏：增量学习

本文链接：https://blog.csdn.net/dhaiuda/article/details/105853953

版权

增量学习专栏收录该内容

11 篇文章 33 订阅

订阅专栏

文章目录

前言
motivation
假设
method

前言

我将看过的增量学习论文建了一个github库，方便各位阅读地址，本文总结的论文位于Regularization文件夹

本文总结2019年ICCV论文《Continual Learning by Asymmetric Loss Approximation with Single-Side Overestimation》(下文简称ALASSO)，这篇文献的出发点非常有趣，其利用一个二次函数模拟旧任务的损失函数，在学习第 $T$ 个任务时，损失函数由第 $T$ 个任务的损失函数以及模拟旧任务的损失函数两部分构成，从而抵抗灾难性遗忘。本论文针对task incremental任务，不是class incremental任务

本文公式较多，可能会对您在阅读上造成一丝不便，请各位见谅

motivation

设第 $T$ 个task，对应的损失函数记为 $L_T$ ，假设目前一共有 $T$ 个task， $T$ 个task的数据都可以使用，为了让模型具备这 $T$ 个task的功能，模型的损失函数为 $loss=\sum_{i=1}^T L_i=L_T+\sum_{i=1}^{T-1}L_i\tag{式1.0}$

因为式1.0假设所有数据都可以使用，所以式1.0不会造成遗忘。

在增量的setting中，由于学习task T时，task 1~T-1的数据已经无法使用，所以式1.0的 $\sum_{i=1}^{T-1}L_i$ 部分将无法计算，我们只能使用 $T - 1$ 时刻的模型， $T - 1$ 时刻的模型，只有参数是可以使用的，那我们能不能让式1.0与参数扯上关系呢？我们将式1.0进行更改，变为
$\begin{aligned} L_T+\sum_{i=1}^{T-1}L_i&=L_T+\sum_{i=1}^{T-1}(L^{finish}_i+L_i^{change}(\theta))\\&=L_T+\sum_{i=1}^{T-1}L^{finish}_i+\sum_{i=1}^{T-1}L_i^{change}(\theta)\tag{式1.1} \end{aligned}$

$L^{finish}_i$ 表示学习完task i后，task i对应的loss值，设此时对应的参数为 $\hat\theta_i$ ， $L_i^{change}$ 表示对于task i而言，参数由 $\hat\theta_i$ 变为 $\theta$ ，loss值产生的变化，由于 $L^{finish}_i$ 是固定的，所以在增量的setting下，优化目标变为
$L_T+\sum_{i=1}^{T-1}L_i^{change}(\theta)\tag{式1.2}$

现在的问题变为 $\sum_{i=1}^{T-1}L_i^{change}(\theta)$ 的形式是什么样的，我们将在method部分进行介绍。

假设

论文中并没有明说有哪些假设，本部分为我认为论文idea成立所需要的假设。

假设一：假设有三组参数 $\theta_1、\theta_2、\theta_3$ ，训练后，变为 $\theta_1^n、\theta_2^n、\theta_3^n$ ，此时loss的变化为
$\Delta L(\theta_1^n,\theta_2^n,\theta_3^n)\approx \Delta L(\theta_1^n,\theta_2,\theta_3)+\Delta L(\theta_1,\theta_2^n,\theta_3)+\Delta L(\theta_1,\theta_2,\theta_3^n)$

假设二：设训练task n之前的参数为 $\hat \theta_k^{n-1}$ ，训练完task n之后的参数为 $\hat \theta_k^{n}$ ，参数从 $\hat \theta_k^{n-1}$ 均匀变化为 $\hat \theta_k^{n}$ （实际训练是不太可能的），造成的损失函数变化值是已知的，如下图白色部分：
在这里插入图片描述

method

在这里插入图片描述
上图表示在学习完MNIST数据集的第一个task（即task 1）之后，参数 $\hat\theta_k$ 变化（其他参数fix）引起的task 1 loss值的变化，依据上图，作者假设 $L_i^{change}(\theta)$ 应该是一个不对称的二次函数。在正式介绍这个不对称的二次函数之前，我们首先介绍一下SI。

SI假设 $L_i^{change}(\theta)$ 是一个对称的二次函数，其损失函数构造如下：
$L^n(\theta)+c\sum_k\Omega_k^{n-1}(\theta_k-\hat\theta_k^{n-1})^2\tag{式2.0}$
$\begin{aligned} \Omega_{k}^n&=\frac{w_k^n}{(\hat\theta_k^n-\hat\theta_k^{n-1})^2}+\Omega_{k}^{n-1}\\ w_k^n&=L^n(\hat \theta_k^{n-1})-L^n(\hat \theta_k^n)\tag{式2.1} \end{aligned}$

$L^n(\theta)$ 表示参数为 $\theta$ 时，task $n$ 的损失函数值， $w_k^n$ 表示参数由 $\hat \theta_k^{n-1}$ 变化为 $\hat \theta_k^n$ 时，task $n$ 损失函数的变化值，则 $\frac{w_k^n}{(\hat\theta_k^n-\hat\theta_k^{n-1})^2}$ 表示task $n$ 损失函数的单位平方变化率，并假设损失函数的单位平方变化率是固定的，此时 $\frac{w_k^n}{(\hat\theta_k^n-\hat\theta_k^{n-1})^2}(\hat\theta_k-\hat\theta_k^{n})^2$ 表示参数为 $\hat\theta_k$ 时，task $n$ 损失函数的变化值。通过对式2.0进行变形，可以得知式2.0 focus了所有旧task，如下所示：
$L^n(\theta)+c\sum_{i=1}^{n-1}\sum_k\frac{w_k^i}{(\hat\theta_k^i-\hat\theta_k^{i-1})^2}(\theta_k-\hat\theta_k^{n-1})^2$

值得注意的是，式2.1是针对单个参数计算的，我对其理解是除了第 $k$ 个参数以外，其他参数fix前提下，loss值的变化，而正常的训练会导致多个参数同时发生变化，这里利用了假设一
ALASSO是对SI的改进，其假设 $L_i^{change}(\theta)$ 是一个不对称的二次函数，其损失函数构造如下：
$\begin{aligned} &L^n(\theta)+c\sum_kL^{n-1}_s(\theta_k)\\ L^{n-1}_s(\theta_k)&=\Omega_k^{n-1}(\theta_k-\hat \theta_k^{n-1})^2\ if\ \alpha(\theta_k)>0\\ L^{n-1}_s(\theta_k)&=(a\Omega_k^{n-1}+\epsilon)(\theta_k-\hat \theta_k^{n-1})^2\ if\ \alpha(\theta_k)\leq0\\ \alpha(\theta_k)&=(\theta_k-\hat \theta_k^{n-1})(\hat \theta_k^{n-1}-\hat \theta_k^{n-2}) \end{aligned}$

a是一个超参数，一般大于1， $\alpha(\theta_k)$ 为一个控制阀门，用于判断应该选择哪一个二次函数，其判断依据为，如果参数 $\theta_k$ 位于 $\hat \theta_k^{n-1}$ 与 $\hat \theta_k^{n-2}$ 之间，依据假设二，loss值是已经观测过的，此时的 $\Omega_k^{n-1}$ 是可靠的，即单位平均变化率是可靠的，否则，由于loss值未观测到， $\Omega_k^{n-1}$ 是不可靠的，此时施加的惩罚会更大。

$\Omega_k^n=\frac{L^n(\hat\theta_k^n)-L^n(\hat\theta^{n-1}_k)}{(\hat\theta^k_n-\hat\theta_k^{n-1})^2}+c\frac{L_s^{n-1}(\hat\theta_k^{n-1})-L_s^{n-1}(\hat\theta_k^n)}{(\hat\theta^k_n-\hat\theta_k^{n-1})^2}$

第一项表示task n的单位平均变化率，第二项表示旧任务的单位平均变化率，由于 $L_s^{n-1}(\hat\theta_k^{n-1})=0$ （看上面关于 $L_s^{n-1}(\hat\theta_k^{n-1})$ 计算的公式），则有
$\Omega_k^n=\frac{L^n(\hat\theta_k^n)-L^n(\hat\theta^{n-1}_k)}{(\hat\theta^k_n-\hat\theta_k^{n-1})^2}-c\frac{L_s^{n-1}(\hat\theta_k^n)}{(\hat\theta^k_n-\hat\theta_k^{n-1})^2}$