Raki的读paper小记:Kernel Continual Learning

Abstract & Introduction & Related Work

  • 研究任务
    持续学习
  • 已有方法和相关工作
  • 面临挑战
  • 创新思路
    • 部署了一个外显记忆单元,为每个任务存储一个子储存每个任务的子样本集,以学习特定任务的 基于核岭回归的分类器
    • 不需要记忆重放,而且系统性地避免了分类器的任务干扰
    • 我们进一步引入变分随机特征,来为每个任务学习一个数据驱动的内核,为此,我们将核持续学习表述为一个变分推断问题,其中随机傅里叶基被纳入为隐变量
    • 我们通过将特征提取器与分类器解耦来引入基于核的特定任务分类器,以实现持续学习
  • 实验结论

随机傅里叶基础上的变分后验分布是从每个任务的核心集推断出来的。通过这种方式,我们能够生成针对每个任务的信息量更大的核,而且更重要的是,可以减少核心集的大小,以实现更紧凑的记忆,从而产生更有效的基于偶发记忆的持续学习。对四个基准的广泛评估表明了持续学习的内核的有效性和前景

核提供了几个好处:

  1. 分类器的直接干扰被自然地避免了,因为核是以非参数的方式为每个任务建立的,并且没有分类器的参数是跨任务共享的
  2. 此外,与现有的记忆重放方法相比,例如(Kirkpatrick等人,2017;Chaudhry等人,2019a),我们的内核持续学习在训练当前任务时不需要重放以前任务的数据,这避免了任务干扰,同时可以实现更有效的优化。
    为了实现每个任务的自适应内核,我们进一步引入随机傅里叶特征,以数据驱动的方式学习核

具体来说,我们将带有随机傅里叶特征的内核持续学习表述为一个变分推理问题,其中随机傅里叶基础被视为一个潜变量

变分推理的表述自然地诱导出一个正则化项,鼓励模型只从核心集为每个任务学习自适应核。作为一个直接的结果,我们能够用体积更小内存,从而减少存储开销

Kernel Continual Learning

在这里插入图片描述

Problem Statement

我们考虑在当前任务 t t t 上学习模型,给定其训练数据 D t \mathcal{D_t} Dt ,我们统一选择当前任务 t t t 中现有类之间的数据子集,称为核心集数据集(Nguyen等人,2018),表示为。 C t = ( x i , y i ) i = 1 N c C_t=(\mathbf{x_i} , \mathbf{y_i})^{N^c}_{i=1} Ct=(xi,yi)i=1Nc。我们在核心集上构建基于核岭回归的分类器 f c f_c fc 。假设我们有权重为 w w w 的分类器,而核岭回归的损失函数有以下形式
在这里插入图片描述
基于Representer定理,有:

k是核函数
在这里插入图片描述
优化以下目标函数:

在这里插入图片描述
原则上,我们可以使用任何(半)正定核,例如径向基函数(RBF)核或点积线性核来构建分类器。然而,这些核都不是特定的任务,可能会出现次优性能,特别是在数据有限的情况下。此外,我们需要一个相对较大的核心集来获得信息量大且具有辨别力的核,以获得令人满意的性能。为了解决这个问题,我们进一步引入随机傅里叶特征来学习数据驱动的核,这在以前的常规学习任务中已经证明是成功的(Bach等人,2004;Sinha和Duchi,2016;Carratino等人,2018;Zhen等人,2020)。使用随机傅里叶特征的数据驱动内核提供了一种吸引人的技术,以相对较小的内存足迹学习强大的分类器,用于基于偶发记忆的持续学习

Variational Random Features

在非参数方法(如核岭回归)中寻找映射函数时,其中一个关键因素是核函数。Rahimi和Recht(2007)介绍了一种使用显式特征图近似翻译不变量核的算法,该算法在理论上以Bochner定理为支撑

Theorem 1 (Bochner’s Theorem)

一个连续的、实值的、对称的和移位不变的函数 k ( x , x 0 ) = k ( x − x 0 ) k(\mathbf{x,x_0}) = k(\mathbf{x - x_0} ) k(xx0)=k(xx0) R d \mathbb{R^d} Rd 上是一个正定核,当且仅当它是一个正的有限度量的傅里叶变换p(w),从而:
在这里插入图片描述
基于定理1,我们抽取D组样本。 { ω i } i = 1 D \{ω_i\}^D_{i=1} {ωi}i=1D { b i } i = 1 D \{b_i\}^D_{i=1} {bi}i=1D,分别来自正态分布和均匀分布(范围为[0, 2π]),并使用公式 (7) 为每个数据点x构建随机傅里叶特征(RFF)
在这里插入图片描述
传统上,移位不变量核是基于随机傅里叶特征构建的,其中傅里叶基础是从一个高斯分布中提取的,该分布由一个预先定义的核转化而成。这导致核与任务无关。然而,在持续学习中,任务是按顺序从非静止数据分布中提供的,这使得在不同任务中共享相同的核函数成为次优选择。为了解决这个问题,我们建议以数据驱动的方式学习特定的任务核。这在持续学习中更有吸引力,因为我们希望使用最小尺寸的核集来学习信息核。我们将其表述为一个变分推断问题,其中我们将随机基础 ω ω ω 视为一个潜在变量

Evidence Lower Bound

在统计学的角度,我们优化以下极大似然函数

引入一个随机傅里叶基 ω \omega ω,得到:
在这里插入图片描述

其直觉是,我们可以使用数据来推断潜在变量 ω ω ω 的分布,其先验是以数据为条件的。我们将数据和 ω ω ω 结合起来,生成核,根据核岭回归对 x x x 进行分类。我们也可以简单地在潜在变量 ω ω ω 上放置一个标准高斯分布的非信息性先验,这将在我们的实验中进行研究

通过将变异后验纳入公式(9)并应用jensen不等式,我们建立证据下限(ELBO)如下
在这里插入图片描述
因此,最大化ELBO相当于最大化公式(8)中的条件对数似然。详细推导见补充材料

Empirical Objective Function

在持续学习的设置中,我们希望模型能够完全基于存储在内存中的核心集 C t C_t Ct 进行预测

也就是说,条件对数似然应该只以核心集为条件。基于公式(10)中的ELBO,我们建立了以下经验目标函数,通过我们的整体训练程序使之最小化

在这里插入图片描述
其中,在第一项中,我们采用蒙特卡罗方法从变分后验 q ( ω ∣ C t ) q(ω|\mathcal{C_t}) q(ωCt)中抽取样本来估计对数似然,而 L 是蒙特卡罗样本的数量。在第二项中,条件先验作为一个正则器,确保推断出的随机傅里叶基础始终与当前任务相关。最小化Kullback Leibler(KL)散度迫使从核心集推断出的随机傅立叶基的分布接近于训练集的分布

此外,KL项使我们能够使用相对较小的内存生成适应每个任务的信息核。在实践中,条件分布 q φ ( ω ∣ C t ) q_φ(ω|\mathcal{C_t}) qφ(ωCt) p γ ( ω ∣ D t / C t ) p_γ(ω|\mathcal{D_t / C_t}) pγ(ωDt/Ct)被假定为高斯。我们通过使用摊销技术来实现它们(Kingma & Welling, 2014)。也就是说,我们使用多层感知器来生成分布参数, µ µ µ σ σ σ ,把条件作为输入。在我们的实验中,我们部署了两个独立的摊销网络,被称为推理网络 f φ f_φ fφ 的变分后验和先验网络 f γ f_γ fγ 的先验。此外,为了证明数据驱动内核的有效性,我们还实现了变分随机特征的一个变体,即用一个无信息的先验,即一个各向同性的高斯分布 N ( 0 , I ) \mathcal{N(0,I)} N(0,I)来代替公式(11)中的条件先验。在这种情况下,内核也是以数据驱动的方式从核心集学习的,不受任务训练数据的制约

Experiments

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

Conclusion

在本文中,我们介绍了核持续学习,这是一种简单而有效的基于内核分类器的持续学习的分类器

为了减轻灾难性遗忘,我们没有在不同的任务中使用共享的分类器,而是提议在核岭回归的基础上学习特定任务的分类器

具体来说,我们部署了一个外显记忆单元来存储每个任务的训练样本子集,这被称为核心集

我们通过将随机傅里叶基数视为从核心集推断出的潜变量,将核学习表述为一个变分推理问题,通过这样做,我们能够为每个任务生成一个自适应核,同时需要相对较小的内存大小。

我们在四个基准数据集上进行了广泛的实验,进行持续的学习。我们彻底的消融研究证明了内核持续学习的有效性以及变异随机特征在学习数据驱动的内核持续学习中的好处。我们的内核持续学习已经在所有基准上取得了sota,同时开辟了内核方法和持续学习之间许多其他可能的联系

Remark

非常花里胡哨,并且告诉我,“你的数学基础就是垃圾”

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值