Importance Sampling 重要性采样

重要性采样在策略评估中的应用

最新推荐文章于 2025-02-05 12:43:03 发布

从流域到海域

最新推荐文章于 2025-02-05 12:43:03 发布

阅读量1.2k

点赞数 1

CC 4.0 BY-SA版权

分类专栏：强化学习文章标签： Importance Sampling IS for Policy Evaluation

本文链接：https://blog.csdn.net/Solo95/article/details/102673140

强化学习专栏收录该内容

28 篇文章

订阅专栏

本文介绍重要性采样（Importance Sampling, IS）这一无偏估计方法，用于评估函数在特定概率分布下的期望值。进一步探讨了IS在策略评估中的应用，特别是在给定由策略π2产生的轮次下，如何评估策略π1的价值，通过比较两种策略产生的历史数据，实现off-policy学习。

Importance Sampling(重要性采样)，也是常用估计函数价值在某个概率分布下的期望的一个方法。这篇博文先简要介绍IS，再将其在策略评估中的应用。

Importance Sampling

目标：估计一个函数 $f (x)$ ，在遵循某个概率分布 $p (x)$ 条件下的期望值 $Ex∼p[f(x)]\mathbb{E}_{x\sim p}[f(x)]$
有从分布 $q (s)$ 上采样而来的数据 $x_1, x_2,...,x_n$
处于一定假设之下，我们可以使用采样来得到一个无偏估计 $Ex∼q[f(x)]\mathbb{E}_{x\sim q}[f(x)]$

$Ex∼q[f(x)]=∫xq(x)f(x)\mathbb{E}_{x\sim q}[f(x)] = \int_xq(x)f(x)$

Importance Sampling(IS) for Policy Evaluation

记 $h_j$ 为轮次 $j$ 关于状态、动作、奖励的历史：
$h_j=(s_{j,1},a_{j,1},r_{j,1},s_{j,2},a_{j,2},r_{j,2},...,s_j,L_j(terminal))$

那么
$\begin{aligned} p(h_j|\pi,s=s_{j,1}) & =p(a_{j,1}|s_{j,1})p(r_{j,1}|s_{j,1},a_{j,1})p(s_{j,2}|s_{j,1}a_{j,1}) p(a_{j,2}|s_{j,2})p(r_{j,2}|s_{j,2},a_{j,2})p(s_{j,3}|s_{j,2}a_{j,2})... \\ & = \prod_{t=1}^{L_j-1} p(a_{j,t}|s_{j,t})p(r_{j,t}|s_{j,t},a_{j,t})p(a_{j,t+1}|s_{j,t},a_{j,t}) \\ & = \prod_{t=1}^{L_j-1} \pi(a_{j,t}|s_{j,t})p(r_{j,t}|s_{j,t},a_{j,t})p(a_{j,t+1}|s_{j,t},a_{j,t}) \end{aligned}$

如果记 $h_j$ 为轮次 $j$ 关于状态、动作、奖励的历史，其中动作是从策略 $π2\pi_2$ 采样而来：
$h_j=(s_{j,1},a_{j,1},r_{j,1},s_{j,2},a_{j,2},r_{j,2},...,s_j,L_j(terminal))$

那么
$Vπ1(s)≈∑j=1np(hj∣π1,s)p(hj∣π2,s)G(hj)V^{\pi_1}(s)\approx \sum_{j=1}^n \frac{p(h_j|\pi_1,s)}{p(h_j|\pi_2,s)}G(h_j)$

Importance Sampling(IS) for Policy Evaluation

目标：在给定由策略 $π2\pi_2$ 产生的轮次(episodes)下，评估策略 $π1\pi_1$ 的价值 $Vπ(s)V^\pi(s)$
- $s_1,a_1,r_1,s_2,a_2,r_2,....$ 其中的action是由 $π2\pi_2$ 采样而来
能够访问 MDP模型M在策略 $π\pi$ 下产生的收益为 $Gt=rt+γrt+1+γ2rt+2+γ3rt+3+....G_t=r_t+\gamma r_{t+1} + \gamma^2r_{t+2}+\gamma^3r_{t+3}+....$
想求 $V1πs=Eπ1[Gt∣st=s]V^\pi_1{s}=\mathbb{E}_{\pi_1}[G_t|s_t=s]$
IS = 蒙特·卡罗尔off policy估计数据
不依赖模型的方法
不需要马尔科夫假设
在一定的假设下，无偏且一致的 $Vπ1V^{\pi_1}$ 的估计器
可以被用于agent在和环境使用非agent控制策略进行交互的情况下估计策略的价值
也可以使用批学习(batch learning)