2020 北京智源大会
本文属于2020北京智源大会嘉宾演讲的整理报道系列。北京智源大会是北京智源人工智能研究院主办的年度国际性人工智能高端学术交流活动,以国际性、权威性、专业性和前瞻性的“内行AI大会”为宗旨。2020年6月21日-24日,为期四天的2020北京智源大会在线上圆满举办。来自20多个国家和地区的150多位演讲嘉宾,和来自50多个国家、超过50万名国内外专业观众共襄盛会。
2020年6月22日上午,在第二届北京智源大会全体会议上,冯·诺依曼理论奖得主、美国西北大学教授Jorge Nocedal做了名为《Zero-Order Optimization Methods with Applications to Reinforcement Learning》的主题演讲。
Jorge Nocedal,美国西北大学教授,曾在非线性优化、应用数学和运筹学等领域获得无数奖项。2009年获查尔斯·布罗伊登奖;2010年,他还被评为美国工业和应用数学学会院士;2012年获乔治·B·丹齐格奖;2017年,被授予冯·诺依曼理论奖。2020年当选美国工程院院士。Nocedal主要的研究方向为确定性和随机性设置中的非线性优化,他目前进行的算法和理论研究的动机源于图像、语音识别、推荐系统和搜索引擎中的非线性优化问题。
Nocedal在演讲中指出,在函数优化的过程中,我们通常可以使用梯度下降的方法来获得目标函数的最值,但其实这需要依赖许多最值搜索的“运气”,其中包括:良好的初始化、步长、迭代方向计算的精度、搜索空间的结构等,但是在深度学习中,尤其是增强学习中,这些“运气”并不一定可以满足,那么我们如何通过其他的方法来做深度学习中目标函数的优化呢,本次会议中Nocedal给我们分享了他的独到思路——零阶优化。所谓零阶优化算法即不利用一阶导数信息,在一定次数的抽样基础上,拟合目标函数的最值。零阶优化方法通过对目标函数逼近或对目标函数加罚函数的方法,将约束的优化问题转换为非约束的优化问题。
整理:智源社区 钱小鹅
一、函数优化与深度学习
深度神经网络主要基于两个核心思想:其一是适合生成表示的预测函数结构,其二是在合适的空间中帮助寻找到合适的预测函数的反向传播算法。这里,反向传播算法通常意味着两件事:1)可以进行链式微分;2)可以使用梯度下降的方法进行优化。然而,优化过程中使用梯度下降法并不一定保证获得的解能够收敛到我们所期望的最小值。如下图所示,我们发现在优化过程中使用梯度下降方法,如果想要获得我们期望的结果,其依赖的条件有很多,比如:初始值、迭代步长的选择、迭代方向的计算等。
图1: 从不同初始值开始,非凸优化将得到不同的优化结果
上述我们提到的对函数优化的疑问,不少知名的数学界学者同样也对此表示怀疑,例如:
Minsky 1961
I doubt that in any one simple mechanism, e.g., hill-climbing, will we find the means to build an efficient and general problem-solving machine.(我怀疑,在任何一个简单的机制中,例如爬山,我们是否能找到建立一个高效和通用的问题解决机制的方法。)
Minsky and Papert 1998
If we can detect relative improvement, then "hill-climbing" may be feasible, but its use requires some structural knowledge of the search space. And unless this structure meets certain conditions, hill-climbing may do more harm than good.(如果我们能检测到相对改进,那么爬山是可行的,但使用它需要搜索空间的结构知识。除非这种结构满足某些条件,否则弊大于利。)
事实上,在不同的搜索空间结构情况下,梯度下降法获得的效果不尽相同,甚至有时弊大于利。但对于“幸运”的深度学习来讲,我们经常遇到的是凸优化问题,因而梯度下降法取得了良好的结果。但对于强化学习,我们通常遇到很多非凸函数,并且由于网络很深,所以我们无法判断有多少个非凸函数。
优化问题在深度学习中的作用远不止求解最终结果这么简单,它在网络架构的设计中同样起到不容忽视的作用。例如我们熟知的残差网络,