深度强化学习中的对抗攻击和防御

关注公众号,发现CV技术之美

本篇文章分享论文『Attacking and Defending Deep Reinforcement Learning Policies』,深度强化学习中的对抗攻击和防御。

31a3f2e94ace3369f620715e82f28b80.png

  • 论文链接:https://arxiv.org/abs/2205.07626v1

      01      

引言

该论文是关于深度强化学习对抗攻击的工作。在该论文中,作者从鲁棒优化的角度研究了深度强化学习策略对对抗攻击的鲁棒性。在鲁棒优化的框架下,通过最小化策略的预期回报来给出最优的对抗攻击,相应地,通过提高策略应对最坏情况的性能来实现良好的防御机制。

考虑到攻击者通常无法在训练环境中攻击,作者提出了一种贪婪攻击算法,该算法试图在不与环境交互的情况下最小化策略的预期回报;另外作者还提出一种防御算法,该算法以最大-最小的博弈来对深度强化学习算法进行对抗训练。

在Atari游戏环境中的实验结果表明,作者提出的对抗攻击算法比现有的攻击算法更有效,策略回报率更差。论文中提出的对抗防御算法生成的策略比现有的防御方法对一系列对抗攻击更具鲁棒性。


      02      

预备知识

2.1对抗攻击

给定任何一个样本(x,y)和神经网络f,生成对抗样本的优化目标为:

13fd48f425b943d35fd04b45ab2e9e34.png

其中b0e76051748a93102f214ffcd28ddb7f.png是神经网络f的参数,L是损失函数,81cfd87438e6c782c2e9ac27c88d6b2d.png是对抗扰动集合,b7c6e5b55d5f9a8516a47e9bdce2bacf.png是以x为中心,7df7cc2b1b3f0537bbcbf3b63bcb5626.png为半径的范数约束球。通过PGD攻击生成对抗样本的计算公式如下所示:

6e82e705298e42cac09ea6d9269f64a7.png

其中a9a68cfd9c9e5eb3a800fa8d7716dc17.png表示的是投影操作,如果输入在范数球外,则将输入投影到以x中心,f2c6c2816c6c9a41f965205581bac092.png为半径的b039a086395d4a43b2eb9a029661c989.png球上,outside_default.png表示的是PGD攻击的单步扰动大小。

2.2强化学习和策略梯度

一个强化学习问题可以被描述为一个马尔可夫决策过程。马尔可夫决策过程又可以被定义为一个14be7028cc8d24cf1f11ec1a164a4059.png的五元组,其中S表示的是一个状态空间,A表示的是一个动作空间,7d7f02cee1ed034a64ec04de7dcc1bf5.png表示的是状态转移概率,r表示的是奖励函数,41aeb7faf42650f57dbc5f9bb610abf6.png表示的是折扣因子。强学学习的目标是去学习一个参数策略分布91d2b0e78f129b38bc360091de53e907.png 使得价值函数最大化

b12ae88bb70fc5ba4e88bbf8b6136228.png

其中

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值