Incremental Learning Through Deep Adaptation论文阅读+代码解析

编程龙

于 2022-10-11 14:34:05 发布

阅读量938

点赞数

分类专栏：每日一次AI论文阅读文章标签：论文阅读持续学习 MDL 动态架构

本文链接：https://blog.csdn.net/qq_45478482/article/details/127259715

版权

每日一次AI论文阅读专栏收录该内容

42 篇文章 29 订阅

订阅专栏

本篇论文来自2020年PAMI，具体地址点这里

一. 介绍

但通常情况下，仍然需要为每个新任务训练一个单独的模型。考虑到两个形式或性质完全不同的任务，例如预测一系列单词中的下一个单词和预测图像中对象的类别，很显然，每个任务都需要不同的架构或计算。一个更受限制的场景，学习一种在几个相关领域都能很好工作的表示，这种情况称为多域学习（MDL），以将其与多任务学习（在同一域上执行不同的任务）区别开来。一个标准的MDL需要满足以下几点：

使用相同的计算通道
需要为不同的域增加参数
避免灾难性遗忘
逐步学习

本文为每个任务增加了新的模型参数，并且每个任务的都具有自己独特的任务参数。

二. 方法

我们让 $T$ 表示为需要学习的一些任务。具体来说，一个深度的卷积神经网络(DCNN)的目的是学习并且解决 $T$ 。大部分的DCNN都遵循着下面的结构：对于每一个输入 $x$ ，DCNN将会通过 $l$ 层 $\phi_i, i\in1 \cdots l$ 。较低的层为计算层（例如resnet中的resblock）。使用 $\Phi_{F_N}=\sigma\left(\phi_l\right) \circ \ldots \sigma\left(\phi_2\right) \circ \sigma\left(\phi_1\right)$ 表示整个网络 $N$ 中的卷积层，同样，定义 $\Phi_{C_N}=f_c \circ \ldots \sigma\left(f_2\right) \circ \sigma\left(f_1\right)$ 表示网络中分类部分，由一系列的全连接构成。

2.1 Adapting Representations

假设我们有两个任务 $T_1$ 和 $T_2$ ，我们需要学习一个基网络 $N$ 去解决任务 $T_1$ 。假设在第二个任务上也依旧保持着和原网络一样的架构，只是参数不同。我们只需要增加一个控制模块来选择每个任务的网络。其中，每个控制模块使用现存的参数创建出一个新的卷积filters去处理新的任务：对于每一个卷积层 $\phi_l$ ，我们使用 $F_l \in \mathcal{R}^{C_o \times C_i \times k \times k}$ 表示为当前层的filters，其中 $C_o$ 表示为输出的特征大小， $C_i$ 表示为输入的特征大小， $k\times k$ 表示为卷积核的大小，我们使用 $b_l\in\mathcal{R}^C$ 表示为bias。定义 $F_l\in\mathcal{R}^{C_o \times D}$ 为filters的扁平版本（flatten），其中 $D=C_i \cdot k \cdot k$ ，我们使用 $F_l \in \mathcal{R}^{C_o \times C_i \times k \times k}$ 表示 $F_i$ 中的一个filter，如下：
$f^1=\left(\begin{array}{ccc}f_{11}^1 & \cdots & f_{1 k}^1 \\ & \ddots & \\ & & f_{k k}^1\end{array}\right), \cdots, f^i=\left(\begin{array}{ccc}f_{11}^i & \cdots & f_{1 k}^i \\ & \ddots & \\ & & f_{k k}^i\end{array}\right)$
那么flattened的版本则是：
$\tilde{f}=\left(f_{11}^1, \cdots, f_{k k}^1, \cdots, \cdots f_{11}^i, \cdots, f_{k k}^i\right) \in \mathcal{R}^{\mathcal{D}}$
那么对于一个filters，其生成由下面构成：
$\tilde{F}_l^a=W_l \cdot \tilde{F}_l$
其中 $W_l \in \mathcal{R}^{C_o \times C_o}$ 表示一个权重矩阵，根据这个就可以把flattened的filters投放到另一个空间。"Unflattening"将一个向量 $\tilde{f}$ 转换为其对应的tensor $f_l \in \mathcal{R}^{C_i \times k \times k}$ ，那么同样可以把 $\tilde{F}_l^a$ 转为对应的tensor。使用 $\otimes Y$ 表示下面过程：flatten $Y$ ，使用矩阵乘 $X$ ，再unflatten，可以写为：
$F_l^a=W_l \otimes F_l$
如果卷积层中包括bias，那么我们需要重新创建一个新的向量 $b^a_l$ 。对于第 $l$ 层 $\phi_l$ 来说是按照下面的方法进行计算：给定一个可选择参数 $\alpha \in \{0,1\}$ ，我们按照如下方式进行计算：
$x_{l+1}=\left[\alpha\left(W_l \otimes F_l\right)+(1-\alpha) F_l\right] * x_l+\alpha b_l^a+(1-\alpha) b_l$
这样就能保证每个任务能够选择自己的网络参数。为了能够使得网络处理好多个任务，我们将 $\alpha$ 变成一个向量 $\alpha \in \{0,1\}^n$ ，其中 $n$ 表示为共有多少个任务，这样的话如果 $\alpha_j=1$ 那么我们执行第 $j$ 个任务否则执行第0个任务。因此，可以将上述的写法转换为：
$x_{l+1}=\sum_{i=1}^n \alpha_i\left(F_l^{a_i} * x_l+b_l^i\right)$
下面展示了具体的过程：
在这里插入图片描述

三. 代码解析

论文代码点这里
在这里插入图片描述
这里是控制器对应的代码，传入conv是基网络的参数，然后根据w创建一个新的参数权重，然后我们对其进行flatten操作，之后我们创建映射变量： $L$ 。（注意，此处要先把conv的梯度进行冻结，防止被改变，如果是直接对conv进行训练的话，再手动打开梯度）。下面我们看看具体的前向传播代码：
在这里插入图片描述
红色框就是上述的使用 $\alpha$ 进行调控的任务选择模型。
本篇介绍就到此为止，其实作者对这个文章又进行了一些改进，基本思路还是利用原参数进行考虑，这里大家可以自行看一下论文，点这里。

编程龙

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
1
评论
Incremental Learning Through Deep Adaptation论文阅读+代码解析

但通常情况下，仍然需要为每个新任务训练一个单独的模型。考虑到两个形式或性质完全不同的任务，例如预测一系列单词中的下一个单词和预测图像中对象的类别，很显然，每个任务都需要不同的架构或计算。一个更受限制的场景，学习一种在几个相关领域都能很好工作的表示，这种情况称为多域学习（MDL），以将其与多任务学习（在同一域上执行不同的任务）区别开来。使用相同的计算通道需要为不同的域增加参数避免灾难性遗忘逐步学习本文为每个任务增加了新的模型参数，并且每个任务的都具有自己独特的任务参数。
复制链接

扫一扫

专栏目录