殊途同归的策略梯度与零阶优化

本文介绍了两种优化不可导模型的方法:策略梯度和零阶优化。策略梯度通过替换不可导目标并使用采样估计梯度来优化模型,而零阶优化则直接在参数空间中采样和差分来估计参数更新方向。虽然两者看似不同,但在特定优化问题中,它们实际上等价。这两种方法在处理深度学习中不可导模型时,如直接优化评估指标或包含不可导模块时,都能提供有效的解决方案。
摘要由CSDN通过智能技术生成

©PaperWeekly 原创 · 作者|苏剑林

单位|追一科技

研究方向|NLP、神经网络

深度学习如此成功的一个巨大原因就是基于梯度的优化算法(SGD、Adam 等)能有效地求解大多数神经网络模型。然而,既然是基于梯度,那么就要求模型是可导的,但随着研究的深入,我们时常会有求解不可导模型的需求,典型的例子就是直接优化准确率、F1、BLEU 等评测指标,或者在神经网络里边加入了不可导模块(比如“跳读”操作)。

▲ Gradient

本文将简单介绍两种求解不可导的模型的有效方法:强化学习的重要方法之一策略梯度(Policy Gradient),以及干脆不需要梯度的零阶优化(Zeroth Order Optimization)。表面上来看,这是两种思路完全不一样的优化方法,但本文将进一步证明,在一大类优化问题中,其实两者基本上是等价的。

形式描述

首先,我们来形式地定义我们需要解决的问题。以监督学习为例,训练数据 ,模型为 是待优化参数,其维度为 d,假设模型本身是可导的,其的一般形式为 ,其中 称为温度参数,没有特别注明的情况下默认

假如真实标签是 ,预测标签是 ,那么单个样本的得分记为 ,训练目标希望总得分越大越好,即:

看上去挺复杂的,但事实上它的含义很直观清晰:我们想求出参数 ,使得整个数据集的得分 尽可能大,而 ,说明模型预测时输出的是概率最大的那一个。说白了,我们希望“预测概率最大的那一个 y 就是评测得分最高的那一个 y”。

这个形式对应着相当多的机器学习任务,在 NLP 中包括文本分类、序列标注、文本生成等,甚至回归问题也可以对应上去,可以说是很有代表性了。其困难之处就是 这一步无法提供有效的梯度,因此不好直接用基于梯度的优化算法优化。

策略梯度

策略梯度的想法很直接,既然原始的目标(1)没法求梯度,那换个跟它强相关的、可求梯度的目标就行了,比如:

2.1 排序不等式

很明显,上述定义的目标并没有包含

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值