干货！对抗深度强化学习策略的训练和理论保障

AITIME论道

于 2022-01-18 18:30:00 发布

阅读量1k

点赞数

文章标签：人工智能算法机器学习深度学习编程语言

本文链接：https://blog.csdn.net/AITIME_HY/article/details/122572258

版权

本文介绍了一种新的对抗式学习算法，针对深度强化学习中的对抗策略进行优化，提高对手代理的可利用性和对不公平博弈的应对能力。研究证明，这种方法能增强代理的鲁棒性，并在多个游戏中展现了优于现有攻击的效果。

摘要由CSDN通过智能技术生成

点击蓝字

关注我们

AI TIME欢迎每一位AI爱好者的加入！

在一个两人深度强化学习任务中，最近的研究表明，攻击者可以学习一种敌对策略，这种策略会触发目标代理表现不佳，甚至以不希望的方式做出反应。然而，它的有效性在很大程度上依赖于两人博弈中的零和假设。在这项工作中，我们提出了一种新的对抗式学习算法。它通过在学习过程中重置优化目标和设计新的代理优化函数来解决该问题。我们的实验表明，与现有的攻击相比，我们的方法显著提高了对手代理的可利用性。此外，我们还发现我们的方法可以增强代理滥用目标博弈不公平性的能力。最后，我们证明了针对我们的对抗性代理进行对抗性重新训练的代理可以获得更强的对抗性。

本期AI TIME PhD直播间，我们邀请到宾州州立大学博士——郭文博，为我们带来报告分享《对抗深度强化学习策略的训练和理论保障》。

郭文博：

宾州州立大学博士，研究方向主要是机器学习和安全，并在相关领域的顶级期刊与会议上发表论文多篇，包括ICML，NeurIPS， CCS， USENIX Security， NDSS等。获得ACM CCS Outstanding Paper Awards，2018， IBM PhD， Fellowship Award，2020以及Facebook/Baidu Ph.D. Fellowship finalists, 2020。

背景

深度学习在计算机视觉、自然语言处理、恶意软件检测等领域的表现都享有主导地位，近年来整合深度学习的强化学习（DRL）在许多决策任务上都有优异的表现，具体可参考下图的三篇工作。DRL在游戏中也有很广泛的应用，比如AlphaGo、扑克、星际争霸、Dota等。

最低0.47元/天解锁文章

AITIME论道

关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
干货！对抗深度强化学习策略的训练和理论保障

点击蓝字关注我们AI TIME欢迎每一位AI爱好者的加入！在一个两人深度强化学习任务中，最近的研究表明，攻击者可以学习一种敌对策略，这种策略会触发目标代理表现不佳，甚至以不希望的方式做出反...
复制链接

扫一扫