OPE in RL|强化学习中的离策略评估方法

Sparks Fly ~

于 2024-05-06 18:22:55 发布

阅读量663

点赞数 3

文章标签：算法

本文链接：https://blog.csdn.net/qq_52797432/article/details/138478188

版权

原文：Empirical Study of Off-Policy Policy Evaluation for Reinforcement Learning

1. inverse propensity scoring ：IPS逆概率评分

IPS核心思想：通过行为策略和待评估策略的重要性采样比率，将历史数据中的奖励reward重新加权，目的是衡量在行为策略下奖励符合待评估策略的可能性。

IPS: 不适用于long horizon

IS: improtance sampling

unbiased

PDIS: per decision improtance sampling

WIS：weighted improtance sampling

biased
more accurate and data-efficient than IS

PDWIS: per decision weighted improtance sampling

performs best during these four methods

2. direct methods: DM 直接方法

Generally,

FQE,

Q_pi(lamda),

IH:infinite horizon setting

Minimax-style estimators

3.Hybrid Methods (HM)

除了IH，每一种DM 都对应三种HM： standard doubly robust (DR), weighted doubly robust (WDR), and MAGIC

每一种DM：MAGIC>WDR>

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Sparks Fly ~

关注关注

3
点赞
踩
10

收藏

觉得还不错? 一键收藏
1
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

Off-policy evaluation的一些知识点

zz_ytj的博客

07-30

2078

最近做试验中遇到用off-policy数据估计策略性能提升的问题，估计的准确性直接影响到后面对这些数据的利用。然后就一不小心看到了一个RL的未接触过得领域----Off-Policy Evaluation（OPE）。发现有篇综述介绍的很详细，并且给出了benchmark，所以简单记录一下这个领域的一些概念和当前研究的进展及其分类，详细了解转[PAPER]。 OPE的定义首先是off-policy evaluation问题的定义，直接来说就是利用behavior policy πb\pi_bπb采样的数据

强化学习（三）：策略评估与优化

zkpeace

07-27

2692

本文章收录在黑鲸智能系统知识库-黑鲸智能系统知识库成立于2021年，致力于建立一个完整的智能系统知识库体系。我们的工作：收集和整理世界范围内的学习资源，系统地建立一个内容全面、结构合理的知识库。作者博客：途中的树 强化学习（一）：Agent - Environment框架 强化学习（二）：价值函数确定状态值 强化学习系统的一个子任务是尽可能多地了解环境和它的奖励行为，以便更好地塑造代理的策略π\piπ 使用行为策略使Agent与环境互动，Agent将获得奖励，并能了解环境的一些情况,.

1 条评论您还未登录，请先登录后发表或查看评论

OfflineRL的重要环节-离线策略评估介绍

最新发布

civiljiao的博客

11-10

969

离线策略评估是强化学习中一种重要的技术，用于评估一个策略在某个环境中的性能，而不需要与环境进行实际交互。离线策略评估主要用于以下场景：当前策略不适用于实际环境中的交互，但希望评估其性能。通过已有一些历史数据，利用这些数据来评估策略的性能。

Monte Carlo Off Policy Evaluation

Steve Wang's blog

10-21

477

前面的一篇博文Monte Carlo(MC) Policy Evaluation 蒙特·卡罗尔策略评估介绍的是On-Policy的策略评估。简而言之，On-Policy就是说做评估的时候就是在目标策略本身上做的评估，而Off-Policy指的是在别的策略上对目标策略做评估。 MC Off-Policy Evaluation 在某些领域(例如图示)尝试采取动作观察结果代价很大或者风险很高 ...

强化学习笔记：策略评估--贝尔曼方程求解示例

chenxy_bwave的专栏

02-27

5560

策略评估（Policy Evaluation），简单来说，就是针对某个既定的策略求其状态值函数和动作值函数。求得了状态值函数和动作值函数，事实上就很容易进行不同候补策略之间的性能对比并进而求得最优策略。假定MDP的动力学函数p(s',r|s,a)是完全知道，理论上来说，就可以针对特定策略的值函数的进行精确的闭式解求解。本文给出一个简单的MDP模型的状态值函数的求解示例。

离线强化学习(Offline RL)系列5: (模型参数) 离线强化学习中的超参数选择(Offline Hyperparameters Selection)

深度强化学习(DeepRL)探索博客

05-03

2821

离线强化学习的数据集、数据集的特征、采样复杂性以及算法实现在之前的博客中已经阐述了很多，此外，对算法效率还有一个非常重要的影响特性：**超参数的选择**，本文作者就该过程进行了阐述，并提出了使用3种指标衡量选择效果，最后基于FQE算法实验，通过与常见的CRR等算法进行对比。

AAMAS 2021 强化学习论文70篇（自整理）

LoveMQ_919的博客

03-18

4285

AAMAS 2021 强化学习论文

OPA算法,ope算法公式,matlab源码.zip

10-15

OPA算法，全称为Optimal Policy Alternatives（最优策略选择）算法，是一种在强化学习（Reinforcement Learning, RL）领域中的策略评估方法。它旨在寻找一个最优的策略，使得在给定环境中长期累积的奖励最大。这个...

Spr-2021-DiDi-RL

04-04

《Spr-2021-DiDi-RL》项目是2021年春季哥伦比亚大学数据科学研究所（DSI）的一项重要研究，专注于出租车服务的重定位策略评估，特别是运用强化学习（RL）方法来解决这个问题。项目的核心是通过政策外评估（Off-...

强化学习（一）：概述

夏栀的博客

02-29

6734

强化学习（一）：概述前言：最近，强化学习非常的火爆，不论在科研界还是工业界，强化学习一直作为一个新兴的领域，在计算机学科范畴内发挥重要的作用。强化学习（Reinforcement Learning），属于一种机器学习架构（范式）。我们知道机器学习一般分为监督和无监督，所谓监督即是否有外在的标准来约束样本，也就是所谓的标签；无监督则是没有标签的样本。强化学习之所以认为是机器学习的一种架构，是...

推荐系统中的偏差与去偏差——综述

beilizhang的博客

04-14

6083

参考链接《Bias and Debias in Recommender System: A Survey and Future Directions》概述数据中存在多种多样的偏差，包括但不限于选择偏差（selection bias）、位置偏差（position bias）、曝光偏差（exposure bias）和流行度偏差（popularity bias）。盲目地拟合数据，而忽视这些数据内部的偏差会导致很多问题，比如离线评估和在线指标的差异、伤害用户的对推荐服务的满意度和信任等。要将大量的研究模型

逆向倾向评分 (Inverse Propensity Scoring, IPS) 原理解析与MF算法的结合使用

白水的博客

04-29

4808

当历史交互数据为MCAR(Missing Completely At Random，完全随机缺失)时，评级预测损失函数可以定义为： LossNaive=1∣{(u,i):ou,i=1}∣∑(u,i):ou,i=1δu,i(Y,Y^)\mathcal{Loss}_{Naive}=\frac{1}{|\{(u,i):o_{u,i}=1\}|}\sum_{(u,i):o_{u,i}=1}\delta_{u,i}(Y,\hat{Y})LossNaive=∣{(u,i):ou,i=1}∣1(u,i):ou,i

增强学习和OpeAI Gym的介绍：基础增强学习问题的演示

OReillyData

10-13

9136

编者注：想要深入学习增强学习，请查看Marcos Campos在2017年9月17 - 20日于旧金山举行的O’Reilly人工智能会议上所做的“增强学习介绍”辅导课。你可以在Justin Francis的GitHub上找到这个博文里展示的代码。那些对机器学习世界感兴趣的人已经意识到了基于增强学习的人工智能的能力。在过去的几年里，使用增强学习(RL，Reinforcement Learni

m0_37586850的博客

11-04

3867

如何理解RL中on-policy与off-policy

yangshaokangrushi的博客

03-31

1万+

on-policy 和off-policy是强化学习中出现最多的两个概念，也是最容易让初学者迷惑的概念之一。网上很多博客都是从是否使用当前policy和其它policy角度出发解释的，但是笔者认为这样解释诚然正确但是总给人感觉看过之后还是茫茫然。今天我们就从另外的角度探讨一下他们两者的区别与联系。 On-policy methods attempt to evaluate or imp...

增强学习中的on-policy和off-policy的区别