干货!对抗深度强化学习策略的训练和理论保障

本文介绍了一种新的对抗式学习算法,针对深度强化学习中的对抗策略进行优化,提高对手代理的可利用性和对不公平博弈的应对能力。研究证明,这种方法能增强代理的鲁棒性,并在多个游戏中展现了优于现有攻击的效果。
摘要由CSDN通过智能技术生成

点击蓝字

cbbb39b73ab2743f1e5707b8b9e41f2f.png

关注我们

AI TIME欢迎每一位AI爱好者的加入!

在一个两人深度强化学习任务中,最近的研究表明,攻击者可以学习一种敌对策略,这种策略会触发目标代理表现不佳,甚至以不希望的方式做出反应。然而,它的有效性在很大程度上依赖于两人博弈中的零和假设。在这项工作中,我们提出了一种新的对抗式学习算法。它通过在学习过程中重置优化目标和设计新的代理优化函数来解决该问题。我们的实验表明,与现有的攻击相比,我们的方法显著提高了对手代理的可利用性。此外,我们还发现我们的方法可以增强代理滥用目标博弈不公平性的能力。最后,我们证明了针对我们的对抗性代理进行对抗性重新训练的代理可以获得更强的对抗性。

本期AI TIME PhD直播间,我们邀请到宾州州立大学博士——郭文博,为我们带来报告分享《对抗深度强化学习策略的训练和理论保障》。

8c72b86d4b61cd41ae5ba245deae000c.png

郭文博:

宾州州立大学博士,研究方向主要是机器学习和安全,并在相关领域的顶级期刊与会议上发表论文多篇,包括ICML,NeurIPS, CCS, USENIX Security, NDSS等。获得ACM CCS Outstanding Paper Awards,2018, IBM PhD, Fellowship Award,2020以及Facebook/Baidu Ph.D. Fellowship finalists, 2020。

01

 背   景 

深度学习在计算机视觉、自然语言处理、恶意软件检测等领域的表现都享有主导地位,近年来整合深度学习的强化学习(DRL)在许多决策任务上都有优异的表现,具体可参考下图的三篇工作。DRL在游戏中也有很广泛的应用,比如AlphaGo、扑克、星际争霸、Dota等。

  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值