论文阅读笔记《Gradient-Based Meta-Learning with Learned Layerwise Metric and Subspace》

小样本学习&元学习经典论文整理||持续更新

核心思想

  本文提出一种基于参数优化的小样本学习算法(MT-net),基本思路还是延续了MAML两级训练的元学习思想,作者在先前的元学习算法基础上增加了一个变换矩阵,得到变换网络Transformation Networks (T-net),在变换网络的基础上增加了一个二元掩码矩阵得到掩码变换网络Mask Transformation Networks (MT-net),网络的设计思路如下图所示。
在这里插入图片描述
  如图a所示,在初始权重值的基础上,任务学习器会根据每个任务的损失对权重值进行更新得到不同任务对应的权重值(用不同的颜色表示)。但对于MAML算法而言,当初始权重值确定了,网络结构固定了之后,所有任务的参数搜索空间也就固定了。假设网络的结构非常简单,每个参数只有三个维度,那么对于这个参数而言,他的搜索空间就是三维空间中的一个二维平面(如图b所示),两个维度参数的变化,就能决定第三个维度参数的变化(也就是说只有两个自由度)。因此在这个条件下,所有任务对应的参数只能在同一个二维平面中选取,这就限制了参数的选择范围。而本文提出在原有结构的基础上增加一个与任务相关的变换矩阵 T T T,其将参数的搜索空间投影到一个与任务相关的子空间中(如图c所示),这样每个任务的参数都能在对应的子空间中选择,这样使得任务学习对于任务的变化更加敏感。增加了变换矩阵后,就得到了变换网络T-net,模型的实现方式如下图所示
在这里插入图片描述
  T-net的实现方法也很简单,就是在模型的参数 θ \theta θ中增加一个可学习的变换矩阵参数 T T T,模型的数学表达如下
在这里插入图片描述
其中 W L W^L WL表示第 L L L层网络对应的权重参数, T L T^L TL表示第 L L L层网络对应的变换矩阵, σ \sigma σ表示激活函数,则整个模型的参数 θ \theta θ可以分成两部分: θ T \theta_T θT θ W \theta_W θW
在这里插入图片描述
在内层循环阶段,利用任务学习器对参数 θ W \theta_W θW进行更新
在这里插入图片描述
得到每个任务对应的参数 θ ~ W , T \tilde{\theta}_{W,\mathcal{T}} θ~W,T,然后在外层循环阶段对整个参数 θ \theta θ进行更新
在这里插入图片描述
  在T-net的基础上,作者又考虑如何让权重的更新过程更接近于任务的需要,因此作者有增加了一个掩码矩阵 M M M,得到掩码变换网络MT-net,其模型的实现方式如下图所示
在这里插入图片描述
MT-net的模型与T-net是相似的,但是在参数更新的环节增加了一个可学习的掩码矩阵 M M M M M M中的每一行不是全1向量,就是全0向量,将其与损失函数得到的梯度矩阵逐元素相乘,就得到了掩码后的梯度矩阵,全1向量(如图中白色部分)对应的梯度信息得以保留,可以对权重参数 W W W进行更新得到 W ~ T \tilde{W}_{\mathcal{T}} W~T,而全0向量(如图中蓝色部分)对应的梯度信息就被清空了,无法对该部分权重参数进行更新。这样对于每个任务 T \mathcal{T} T,其对应权重参数的更新方式都是不同的。整个过程的数学表达如下
在这里插入图片描述
为了使掩码矩阵 M M M能通过梯度下降的方式进行训练,本文采用了一种可微分的近似方法实现 M M M M M M中的每个行向量 m j T m_j^T mjT计算过程如下
在这里插入图片描述
其中 c c c是一个超参数,而对于 M M M的学习就转化为了对参数 ζ \zeta ζ的学习,则模型参数 θ \theta θ就包含三个部分 θ ζ \theta_{\zeta} θζ, θ T \theta_T θT θ W \theta_W θW
在这里插入图片描述
同理在学习过程中,现在内层循环中训练参数 θ W \theta_W θW,再在外层循环中对整个模型参数进行训练
在这里插入图片描述

实现过程

网络结构

  对于分类任务采用4-Conv结构。

训练策略

  T-net训练过程如下
在这里插入图片描述
  MT-net训练过程如下
在这里插入图片描述

创新点

  • 引入了任务相关的变换矩阵,使得每个权重参数能够在任务对应的子空间中进行学习
  • 引入了任务相关的掩码矩阵,使得权重参数更新过程会根据任务需求来设计

算法评价

  看起来对于小样本学习任务,任务相关(Task-specific)的方法已经得到了广泛的关注,大家不再希望找到一个泛化能力超强,模型容量超大的算法来满足所有任务的需求,因为在小样本条件下,这是很难实现的。而是通过让模型能够根据任务需求进行自适应的调整,来使其快速地在小样本训练中达到一个较优解。本文也是基于此想法,对参数的搜索空间和更新过程,增加了与任务相关的调整,使其能够快速的实现收敛。

如果大家对于深度学习与计算机视觉领域感兴趣,希望获得更多的知识分享与最新的论文解读,欢迎关注我的个人公众号“深视”。在这里插入图片描述

  • 2
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 3
    评论
gradient-based neural dag learning(梯度优化的神经有向无环图学习)是一种用于构建和训练神经网络结构的方法。它通过学习网络的拓扑结构,即神经网络的连接方式和层次结构,来优化网络性能。 传统的神经网络结构通常是由人工设计的,而在gradient-based neural dag learning中,网络的结构可以通过梯度下降算法进行优化。该方法的核心思想是在训练过程中不仅学习网络的权重参数,还学习网络的拓扑结构。 在gradient-based neural dag learning中,网络的结构可以表示为有向无环图(DAG),图中的节点表示网络中的层或操作,边表示连接。我们可以用一组变量来表示每个节点的状态和连接关系,通过优化这些变量,实现网络结构的优化。 具体地,gradient-based neural dag learning通过计算网络中每个操作或层对目标函数的梯度来优化变量。在梯度下降的过程中,网络的结构随着反向传播算法的迭代而逐渐优化。这种方法可以使得网络自动完成结构的搜索和选择,提高了网络的表达能力和性能。 由于gradient-based neural dag learning可以自动进行网络结构的学习和优化,它可以减轻人工设计网络结构的负担,并且在处理复杂任务时能够获得更好的性能。然而,由于网络结构的搜索空间非常大,优化过程可能会很复杂,需要大量的计算资源和时间。 总之,gradient-based neural dag learning是一种通过梯度下降优化网络结构的方法,能够自动学习和优化神经网络的拓扑结构,提高网络性能。这种方法在深度学习领域有着广泛的应用潜力,并且为网络的设计和训练带来了新的思路和方法。
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

深视

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值