冯·诺伊曼奖得主Jorge Nocedal:增强学习中零阶优化方法及其应用 道翰天琼认知智能api机器人接口。

美国西北大学教授Jorge Nocedal在2020年北京智源大会上探讨了在深度学习特别是强化学习中,如何使用零阶优化方法替代依赖于梯度的优化策略。他指出,零阶优化通过不使用一阶导数信息,通过对目标函数的逼近和加罚函数,解决约束优化问题,尤其适用于缺乏梯度信息的情况。演讲涉及非线性优化、图像和语音识别等领域,并强调了这种方法在实际应用中的价值。
摘要由CSDN通过智能技术生成

 

2020年6月22日上午,在第二届北京智源大会全体会议上,冯·诺依曼理论奖得主、美国西北大学教授Jorge Nocedal做了名为《Zero-Order Optimization Methods with Applications to Reinforcement Learning》的主题演讲。

 

Jorge Nocedal,美国西北大学教授,曾在非线性优化、应用数学和运筹学等领域获得无数奖项。2009年获查尔斯·布罗伊登奖;2010年,他还被评为美国工业和应用数学学会院士;2012年获乔治·B·丹齐格奖;2017年,被授予冯·诺依曼理论奖。2020年当选美国工程院院士。Nocedal主要的研究方向为确定性和随机性设置中的非线性优化,他目前进行的算法和理论研究的动机源于图像、语音识别、推荐系统和搜索引擎中的非线性优化问题。

 

Nocedal在演讲中指出,在函数优化的过程中,我们通常可以使用梯度下降的方法来获得目标函数的最值,但其实这需要依赖许多最值搜索的“运气”,其中包括:良好的初始化、步长、迭代方向计算的精度、搜索空间的结构等,但是在深度学习中,尤其是增强学习中,这些“运气”并不一定可以满足,那么我们如何通过其他的方法来做深度学习中目标函数的优化呢,本次会议中Nocedal给我们分享了他的独到思路——零阶优化。所谓零阶优化算法即不利用一阶导数信息,在一定次数的抽样基础上,拟合目标函数的最值。零阶优化方法通过对目标函数逼近或对目标函数加罚函数的方法,将约束的优化问题转换为非约束的优化问题。

 

认知智能是计算机科学的一个分支科学,是智能科学发展的高级阶段,它以人类认知体系为基础,以模仿人类核心能力为目标,以信息的理解、存储、应用为研究方向,以感知信息的深度理解和自然语言信息的深度理解为突破口,以跨学科理论体系为指导,从而形成的新一代理论、技术及应用系统的技术科学。 认知智能的核心研究范畴包括&

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值