Understanding Adversarial Attacks on Observations in Deep Reinforcement Learning 论文分享

最新推荐文章于 2024-09-29 08:43:59 发布

qiu_xiao_ying

最新推荐文章于 2024-09-29 08:43:59 发布

阅读量451

点赞数

文章标签：概率论机器学习算法

本文链接：https://blog.csdn.net/qiu_xiao_ying/article/details/120689197

版权

本文探讨了针对观察的深度强化学习中的对抗攻击。介绍了背景，包括策略基方法的详细步骤，以及在对抗攻击方面的理解，特别是针对状态的马尔科夫决策过程（SA-MDP）和函数空间中的攻击理解。文章还阐述了攻击目标，存在的困难，以及作者如何通过分阶段优化来构造强大的攻击者策略。

摘要由CSDN通过智能技术生成

一 . Background

一.引入

在这里插入图片描述

二.方法

policy-based approach(learning an actor)
value-based approach(learning a critic)
actor+critic (A3C、A2C)

1.policy-based approach

1.1 开局一张图

在这里插入图片描述

1.2 机器学习三大步

step1：定义一个函数
在这里插入图片描述
step2:定义函数的好坏

假设让actor(定义为： $\pi_\theta(s)$ )玩一场游戏从开始到结束有这样一个轨迹：
$\tau=\{ s_1,a_1,r_1,s_2,a_2,r_2,\dots,s_T,a_T,r_T\}$ ;
$R_\theta=\sum_{t=1}^{T}r_t$ ;
由于actor和游戏具有随机性，故 $R_\theta$ 是一个随机变量，故转而求它的期望值( $\bar{R}_\theta$ )的最大值;
期望： $\bar{R}_\theta=\sum_{\tau}R(\tau)p(\tau \vert \theta)$ ;
抽样 $\{\tau^1,\tau^2,\dots,\tau^N\}$ 估计总体:
即： $\bar{R}_\theta \approx \frac{1}{N} \sum_{n=1}^{N}R(\tau^n)$

step3：选择最好的函数

1.目标函数： $\theta^*=\argmax_{\theta}\bar{R}_{\theta}$
2.梯度上升法(policy gradient)： $\theta^{new} \leftarrow \theta^{old}+\eta\triangledown \bar{R}_\theta$
3.推导过程
$\begin{aligned}\bar{R}_\theta &=\sum_{\tau}R(\tau)p(\tau \vert \theta) \\ \triangledown \bar{R}_\theta &= \sum_{\tau}R(\tau)\triangledown{p(\tau \vert \theta)} \\ & =\sum_{\tau}R(\tau)p(\tau \vert \theta)\frac{\triangledown{p(\tau \vert \theta)}}{p(\tau \vert \theta)} \\ & =\sum_{\tau}R(\tau)p(\tau \vert \theta) \triangledown{\log p(\tau \vert \theta) } \\ & \approx \frac{1}{N}\sum_{n=1}^{N}R(\tau^n)\triangledown{\log p(\tau^n \vert \theta) } \\ \tau &=\{ s_1,a_1,r_1,s_2,a_2,r_2,\dots,s_T,a_T,r_T\} \\p(\tau \vert \theta) &=p(s_1)p(a_1 \vert s_1,\theta)p(r_1,s_2 \vert s_1,a_1)p(a_2 \vert s_2,\theta)p(r_2,s_3 \vert s_2,a_2) \dots \\ &=p(s_1)\prod_{t=1}^{T}p(a_t\vert s_t,\theta)p(r_t,s_{t+1} \vert s_t,a_t) \\ \triangledown \bar{R}_\theta & \approx \frac{1}{N}\sum_{n=1}^{N}\sum_{t=1}^{T_n}R(\tau^n) \triangledown \log p(a_t^n \vert s_t^n,\theta)\end{aligned}$
结论：如果 $R(\tau^n)>0$ ,增加 $p(a_t^n \vert s_t^n)$ ;如果 $R(\tau^n)<0$ ，减少 $p(a_t^n \vert s_t^n)$ ;

4.改进
原因：从 $\triangledown \bar{R}_\theta \approx \frac{1}{N}\sum_{n=1}^{N}\sum_{t=1}^{T_n}R(\tau^n) \triangledown \log p(a_t^n \vert s_t^n,\theta)$ 中可以看出，在一场游戏中每一个动作的权重一样，假设 $R(\tau^n)>0$ ，不会 $\tau^n$ 中的每一个动作的奖励都是正的，也不会每一个动作是一样的重要，所以要给不同的动作设一个不同的权重；
法一：这个行为得到的奖励应该是行为发生及其以后的奖励总和
$\triangledown \bar{R}_\theta \approx \frac{1}{N}\sum_{n=1}^{N}\sum_{t=1}^{T_n}(\sum_{t^\prime=t}^{T_n}r_{t^\prime}^n)\triangledown \log p(a_t^n \vert s_t^n,\theta)$

在这里插入图片描述
法二：由于发生某个行为后，它后面的奖励都可能是这个行为的后果，但是时间越久，这个行为的影响力越小
$\triangledown \bar{R}_\theta \approx \frac{1}{N}\sum_{n=1}^{N}\sum_{t=1}^{T_n}(\sum_{t^\prime=t}^{T_n}\gamma^{t^\prime-t}r_{t^\prime}^n)\triangledown \log p(a_t^n \vert s_t^n,\theta)$
在这里插入图片描述

二.Understanding Adversarial Attacks on Observations in Deep Reinforcement Learning

一.攻击目标

在这里插入图片描述

具体的目标：降低被害者的总奖励的期望值

二.存在的困难

环境是动态变化的并且

三.作者做的事

1.将以往的对抗攻击根据空间函数分为3类

空间1：攻击者误导agent采取非最优的行动;
空间2：攻击者要么误导agent采取非最优的行为，要么让agent采取原来的行为；
空间3：攻击者诱导agent学习有害的policy；

2.证明了空间1 $\subseteq$ 空间2 $\subseteq$ 空间3，且空间3是能产生最强的攻击者的空间；
3.根据空间3，将任务分为两个阶段的优化，第一阶段训练一个decisive policy，这个decisive policy可以去探索环境的动态变化，并且根据被更改的reward function，让decisive policy得到的总奖励的期望值最低；第二阶段将受害者模仿decisive policy，从而得到的总奖励的期望值最低.

四.具体内容

1.State-adversarial markov decision process(SA-MDP)

$g^*=\argmin_{g \in G} \mathbb{E}_{a_t \sim \pi_g(\cdot \vert s_t),s_{t+1} \sim P_a(s_t,a_t)} \left[ \sum_{t=0}^{\infty} \gamma^tr_t\right]$
其中 $G$ :攻击者集合(attacker set)
攻击者(attacker)： $g\in G:S \rightarrow F(S)$
状态集合(state set)： $S$
在 $S$ 上的分布： $F (S)$
折扣因子(discount factor)： $\gamma$
行为集合(action set)： $A$
跳转函数(transition function): $P_a:S \times A \rightarrow F(S)$
回报函数(reward function): $\times A \times S \rightarrow \mathbb{R}$
策略(policy): $\pi:S \rightarrow F(A)$

2.Understanding adversarial attacks in function space

$H :$ adversary的函数空间
$h(s_t)=s_t+\delta_{s_t}$
$H=\{ h \vert \|h(s)-s\|_p\leq\epsilon,\forall s\in S\}$
$h^*=\argmin_{h \in H}[\mathbb{E}_{a \sim \pi_{h}}\sum_{t=0}^{\infty} \gamma^t r_t]$