AUTOLOSS: LEARNING DISCRETE SCHEDULE FOR ALTERNATE OPTIMIZATION

最新推荐文章于 2023-04-26 21:57:27 发布

冰冰冰泠泠泠

最新推荐文章于 2023-04-26 21:57:27 发布

阅读量684

点赞数

本文链接：https://blog.csdn.net/icylling/article/details/86429063

版权

AUTOLOSS: LEARNING DISCRETE SCHEDULE FOR ALTERNATE OPTIMIZATION

迭代（iterative）和交替（alternate）
- Iterative optimization
- Alternate optimization
AutoLoss

许多机器学习任务涉及迭代交替优化多个目标。比如GANs交替地优化generator和discriminator。Multi-task learning中，交替优化不同的任务目标。不同的优化策略会导致不同的收敛质量和速度。
这篇文章提出AutoLoss。AutoLoss是元学习的框架，自动选择迭代（iterative）和交替（alternate）的优化策略，以提高优化算法的收敛的质量和速度。AutoLoss定义了一个controller，controller学习历史和当前状态的关系，使用了policy gradient学习controller的参数，目标是最大化任务的性能。

迭代（iterative）和交替（alternate）

下面先来看看迭代（iterative）和交替（alternate）的定义。

Iterative optimization

简单来说就是，迭代优化参数 $\Theta$ 直到达到停止标准，在第t步， $\Theta^{(t+1)}=\Theta^{(t)}+\epsilon \Delta_{L}(D^{(t)};\Theta^{(t)})$ ， $D^{(t)}\subseteq D$ 是第t步使用的数据。SGD属于这类方法，对SGD而言， $\Delta_L$ 是梯度， $D^{(t)}$ 是batch data， $\epsilon$ 是学习率。

Alternate optimization

假设 $L$ 包含多个目标 $L=\{l_m\}_{m=1}^M$ ，参数分为 $\Theta=\{\theta_n\}_{n=1}^N$ 。alternate optimization分为t步，每步需要选择 $l_{m_t}\in L, \theta_t\in \Theta$ ，使用 $l_{m_t}$ 更新 $\theta_t$ 。

统一描述为：
在这里插入图片描述

AutoLoss

AutoLoss的目标是每一步选择 $a_{q_t}$ ，以优化目标任务的性能。
怎么做呢？引入了一个meta model，叫做controller。注意meta model和task model是不同的。controller在task model优化的过程中学习，在积累足够的知识后做决定。
controller学习历史，在第t步，预测一个one-hot的向量 $Y^{(t)}\in \{0,1\}^{|\mathcal A|}$ 。 $a_q$ 被选择，如果 $Y^{(t)}$ 的第q位为1。预测模型是一个条件概率 $p(y|x;\phi)$ ， $x$ 代表历史。在第t步，采样 $Y^{(t)}\sim p(y|x=X^{(t)};\phi)$ 。
怎么学习meta model的参数呢？通过最大化任务的性能来学习controller的参数 $\phi$ 。
用 $\mathcal Y=\{Y^{(t)}\}_{t=1}^T$ 表示T步的选择，训练controller的目标是
在这里插入图片描述
R是reward function，是采用策略 $\mathcal Y$ 后的任务性能。
因为这里面有不可导的采样过程，所以使用强化学习中常用的REINFORCE算法学习。梯度计算如下：

引入B是为了减小variance，定义为moving average of received reward 在这里插入图片描述