因果强化学习入门

最新推荐文章于 2024-08-12 19:56:42 发布

Jie Qiao

最新推荐文章于 2024-08-12 19:56:42 发布

阅读量1.5k

点赞数

分类专栏：人工智能文章标签：人工智能

本文链接：https://blog.csdn.net/a358463121/article/details/115531811

版权

人工智能专栏收录该内容

51 篇文章 16 订阅

订阅专栏

文章目录

Causal RL的基本setting
CRL-TASK 1 GENERALIZED POLICY LEARNING (GPL)
CRL-TASK 2. WHEN AND WHERE TO INTERVENE?
CRL-TASK 3. COUNTERFACTUAL DECISION-MAKING
参考资料

本文内容是ICML 2020 Causal Reinforcement Learning tutorial的整理.

阅读本文需要一点causal inference基础，可以看看

Causal effect可识别的一般条件

反事实因果(Counterfactual)简介

《因果推理导论》课程(2020) by Brady Neal

Causal RL的基本setting

大致分为3种任务：

online learning：主动去干预(do)来学习干预后分布p(y|do(x))
off policy learning：看别人干预的数据来学习干预后分布p(y|do(x))
Do-calculus learning：观测数据，不主动干预，但需要从观测数据中学习干预后分布p(y|do(x))

在这个tutorial中，详细介绍了3个tasks：

Generalized Policy Learning：结合online和offline learning
When and where to intervene: 研究什么条件下需要去干预
Counter factural Decision-Making: 反事实决策

在这里插入图片描述

CRL-TASK 1 GENERALIZED POLICY LEARNING (GPL)

任务1：我们能不能借助观测数据来加速强化学习的过程呢？

毕竟观测数据是很容易得到的，但是干预的数据是非常少的。显然，如果你知道因果结构，并且该因果结构满足一定假设（X变量不存在confounder连接其直接孩子），那么从观测数据中计算出干预后的分布是可以实现的，详情可看文章：Causal effect可识别的一般条件. 然而，当因果结构不满足这样的假设时就不行了。如下图右边是真实结构，U是一个观测不到的confounder，此时我们没有办法计算干预后的分布的

如果我们强行用观测分布作为prior，就会由于错误的prior导致了出错的效果，反正没有从0开始学的效果好。

那怎么办呢？虽然我们无法具体算出干预后分布的值，但是根据观测变量，我们是可以计算出干预后分布的bound的，换句话说，我们可以根据这个bound，来做一个类似reject的操作，如果落在外面就可以reject掉：

上图列举了几种计算bound的方法，non-parametric是最弱的，越往下其假设越强，但其bound会越窄。下图给出了一种拒绝采样的算法过程

这里抛砖引玉给出一个计算bound的例子，该例子来自于:

Zhang, Junzhe, and Elias Bareinboim. “Transfer learning in multi-armed bandit: a causal approach.” Proceedings of the 16th Conference on Autonomous Agents and MultiAgent Systems. 2017.

在这里插入图片描述

考虑TASK1，假设 $\displaystyle X,Y\in \{0,1\}$ ，那么最一般的情况可以表述成下式这种情况：

$f_{X} (r_{x} )=r_{x} \ \ f_{Y} (x,r_{y} )=\left\{\begin{array}{ l l } 0 & \text{ if } r_{y} =0\\ x & \text{ if } r_{y} =1\\ 1-x & \text{ if } r_{y} =2\\ 1 & \text{ if } r_{y} =3 \end{array}\right.$

令 $\displaystyle p_{ij} =p( X=i,Y=j)$ ，因为X,Y都是取值0,1，所以一共有4种情况，分别是 $\displaystyle p_{00} ,p_{01} ,p_{10} ,p_{11}$ ，同样对于噪声也有， $\displaystyle q_{ij} =p( r_{x} =i,r_{y} =j)$ ，于是有：

$\left. \begin{array}{ c } p_{00} =q_{00} +q_{01} \ \ p_{01} =q_{02} +q_{03}\\ p_{10} =q_{10} +q_{12} \ \ p_{11} =q_{11} +q_{13}\\ E[Y|do(X=0)]=\sum _{y} yp( y|do( x=0)) =p( y=1|do( x=0)) =q_{02} +q_{03} +q_{12} +q_{13}\\ E[Y|do(X=1)]=\sum _{y} yp( y|do( x=1)) =p( y=1|do( x=1)) =q_{01} +q_{03} +q_{11} +q_{13} \end{array}\right.$

稍微解释下，对于 $\displaystyle p( y=1|do( x=0))$ 因为我们强制 $\displaystyle x=0$ ，所以不管 $\displaystyle r_{x}$ 是多少， $\displaystyle x$ 都会等于0。在x=0的情况下，y要的等于1的情况只有两种，分别是 $\displaystyle r_{y} =2,r_{y} =3$ ，因此 $\displaystyle p( y=1|do( x=0)) =q_{02} +q_{03} +q_{12} +q_{13}$ . 此外还有 $\displaystyle p_{00}$ 这些分布的约束，在这些约束下，我们发现

$\begin{array}{ c } E[Y|do(X=0)]=p_{01} +q_{12} +q_{13}\\ E[Y|do(X=1)]=p_{11} +q_{01} +q_{03} \end{array}$

因为我们是能够观测到分布 $\displaystyle p$ 的值的，所以 $\displaystyle p_{01} ,p_{11}$ 是可以确定的，至于 $\displaystyle q$ 我们无法确定,但因为 $\displaystyle q\geqslant 0$ ，所以一定有

$0\leqslant q_{12} +q_{13} \leqslant q_{12} +q_{13} +q_{10} +q_{11} =p_{10} +p_{11}$

于是

$p_{01} \leqslant E[Y|do(X=0)]\leqslant p_{01} +p_{10} +p_{11}$

同理

$p_{11} \leqslant E[Y|do(X=0)]\leqslant p_{11} +p_{00} +p_{01}$

这就是干预后分布期望的界。在这里，我们发现即使没有任何对分布的假设都可以计算出他的bound.

CRL-TASK 2. WHEN AND WHERE TO INTERVENE?

任务2：我们应该如何去干预？

我们需要对所有policy中的action同时进行干预吗？到底该如何去干预呢？是否有一个合适干预的时机呢？对于第一个问题，实际上很多工作都是这样做的，但从因果的角度来讲，同时干预是不需要的，并且同时干预会反而会使得最优的结果无法出现。

考虑下图，

U是观测不到的变量，而Z,X,Y是可观测的，于是针对这些观测到的变量，policy space中是可以存在4中action的，如上图右边，分别是什么都不做，或者只干预X，只干预Z，最后是两个一起干预。如果我们的目标是干预所有变量，并找到最优的action，使得期望收益Y最大：

$arg\max_{xz}E[Y|do(x,z)]$

这时候我们发现存在一些特殊的情况，在不完全干预的情况下比这个期望收益会更高，考虑下面的例子(假设所有变量的取值都只有0,1)：

$\left. \begin{array}{ l } Z\leftarrow U_{z}\\ X\leftarrow Z\oplus U\\ Y\leftarrow X\oplus U\\ P(U=1)=P(U_{z} =1)=0.5 \end{array}\right.$

显然，不管 $\displaystyle X=1$ 或 $\displaystyle X=0$ ， $\displaystyle E( Y|do( X=1)) =E( Y|do( X=0)) =E( U) =0.5$ ，类似的在这种结构下， $\displaystyle do( X)$ 一操作会把 $\displaystyle do( Z)$ 覆盖掉，于是 $\displaystyle E[Y|do(X,Z)]=E[Y|do(X)]$ ，此外如果我们 $\displaystyle do( Z)$ ，我们发现Y就是个确定的值，因为 $\displaystyle Y=(Z\oplus U)\oplus U=Z$ ，于是乎 $\displaystyle do( Z)$ 在这个问题下就是最优的选择。总结一下就是：

$\left. \begin{array}{ l } E[Y|do(X)]=E[Y|do(X,Z)]=0.5\\ E[Y|do(Z)]=(Z\oplus U)\oplus U=Z\\ \text{ So, if }\operatorname{do} (Z=1)\\ E[Y|\operatorname{do} (Z=1)]=1 \end{array}\right.$

显然，单独干预Z比一起干预的收益要更高！那好，现在似乎解决这个问题就很简单了，那就是考虑干预所有的子集，但是你知道子集的组合有很多，有没有更好的做法呢？

有的，直观来讲，我们可以删减一下子集。

第一个规律是，我们发现一些干预其实是等价的，比如在上面例子中 $d o (X, Z)$ 等价于 $d o (X)$ ，这是因为在干预后的图中 $G_{\bar{X,Z}}$ ,独立性 $Y\bot Z|X$ 成立，这里 $G_{\bar{X,Z}}$ 表示删掉如果X,Z的入度边后的图。

第二个规律是，干预Z总比干预空集（什么都不干预）效果要好，所以空集这个action也可以删掉：

$\begin{aligned} E( Y) & =\sum _{z} E( Y|do( z)) P( z)\\ & \leqslant \sum _{z} E\left( Y|do\left( z^{*}\right)\right) P( z)\\ & =E\left( Y|do\left( z^{*}\right)\right)\sum _{z} P( z)\\ & =E\left( Y|do\left( z^{*}\right)\right) \end{aligned}$

所以通过找到这些干预，就可以进一步简化policy space

第三个规律是，有一些干预是可以通过其他干预的分布来计算的，所以这些可以预测的干预就没有必要浪费时间去干预了.

CRL-TASK 3. COUNTERFACTUAL DECISION-MAKING

任务3：通过反事实来进行决策

我们不能仅仅去简单的干预，还要进一步考虑agent的真实意图，并利用这些意图来推导出conterfactural，并基于counterfactural的结果来给出最优的行为决策。

讲个故事，赌场发现，赌徒选择机子跟醉酒状态(D)和机子是否有RGB (B)相关，并满足一下方程
$\leftarrow f _ { X } ( B , D ) = ( D \wedge \neg B ) \vee ( \neg D \wedge B ) = D \oplus B$
具体的意思就是D=1，B=0或D=0,B=1就选M2 （X=1），否则就选M1 （X=0）. 并且，每个赌徒有相同的概率喝醉，每个机子在某一时刻有相同的概率发光，即P(D=0)=P(D=1)=0.5 P(B=0)=P(B=1)=0.5. 现在，进一步假设法律规定最低的回报率是30%，就是赌1块钱至少赚3毛。根据赌场发现的这个规律，如table 1所示。既然(D,B)=(0,0)/(1,1)的人都会去M1机器，那我们就把他们的收益调低，分别是0.1和0.2，意思是，一块钱可以赚0.1元和0.2元。并且为了应付赌场的法律，其他的赔率调高（可以看到(D,B)=(0,1)/(1,0)在M1的收益很高）

这时候，如果有人来审查他们是否符合法规，于是就是派人随机地玩这些机器，就会发现回报率确实是0.3，但是在实际上，这个真实的赔率只有0.15，因为赌徒并不会去玩那些赔率高的机器！

那么问题来了：假设你观测不到D和B，你有什么办法可以拯救这群赌徒？

答案：最简单的策略就是，当你看到一个走向M1机器的时候，拦住他，让他去玩M2就可以了！为什么呢？因为当他要去玩M1的时候，根据这个事实,我们可以“猜”出，这个人要么是(D=0,B=0)要么是(D=1,B=1)，因此，我们推荐他去M2，因为这类人在M2的收益更高。实际上这就是一个反事实的模型，我们通过事实（玩M1），反推出了观测不到的状态，B和D，从而找到一种更好的action（玩M2）。形式化地写出这反事实问题就是：
$arg\max_a E(Y_{X=a}|X=M_1)$
最后求解出来就是 $a=M_2$ 时最大.