【无标题】pessimistic|offline RL notes

最新推荐文章于 2024-06-02 18:21:33 发布

Sparks Fly ~

最新推荐文章于 2024-06-02 18:21:33 发布

阅读量374

点赞数 5

文章标签：人工智能深度学习机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_52797432/article/details/136377944

版权

MDP

目标：找个策略--max期望累计奖励

难点：不知道reward function，不知道转移概率P；

样本复杂性sample efficiency

design sample-efficient RL algorithm with powerful function approximators(e.g.,NN)

offline RL:learning from dataset;no interaction;(pessimistic value iteration)

online RL:learning from interation;to collect a good dataset; exploration and exploitation(optimistic value iteration)

===================================================================

(1)offline RL

problem: lack of convergence&uncertainty

insufficient coverage：并不知道如果执行这个策略，会带来什么后果；自由策略

原因：我们无法收集更多的数据

--评估基于数据的估算的不确定性

原因：epistemic uncertainty（知识的）---会产生--spurious correlation

悲观主义--通过惩罚penalize epistemic uncertainty，去除eliminate spurious correlation

比如说：uncertainty比较大，减掉lower confidence bound，选择比较确定的动作；

算法： Pessimistic LSVI（least square value iteration）

增加步骤：评估不确定性；构造悲观值函数

【图】

不需要：data coverage assumption；

function approximator：linear，kernel，neural network

algorithm：uncertainty quantification+least-square valur iteration

===================================================================

online RL：

面临的问题与离线学习完全相反：因为我们可以更多探索；均衡exploration and exploitation利用和探索；

deep exploration深度探索：

用不确定做奖励，让agent更想去探索新的状态；

问题

algorithm：optimistic LSVI

增加步骤：评估不确定性；构造乐观值函数（upper confidence bound）

result：可以达到polynomial complexity

===================================================================

Summary：Pessimistic & Optimistic

关注

5
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
【无标题】pessimistic|offline RL notes

悲观主义--通过惩罚penalize epistemic uncertainty，去除eliminate spurious correlation。面临的问题与离线学习完全相反：因为我们可以更多探索；原因：epistemic uncertainty（知识的）---会产生--spurious correlation。比如说：uncertainty比较大，减掉lower confidence bound，选择比较确定的动作；--评估基于数据的估算的不确定性。目标：找个策略--max期望累计奖励。
复制链接

扫一扫

Sparks Fly ~ CSDN认证博客专家 CSDN认证企业博客

码龄4年

12: 原创

52万+: 周排名

9万+: 总排名

3954: 访问

: 等级

195: 积分

46: 粉丝

64: 获赞

7: 评论

60: 收藏

私信

关注

热门文章

分类专栏

强化学习小实验 1篇

最新评论

OPE in RL|强化学习中的离策略评估方法
Sparks Fly ~: https://github.com/hari-sikchi/safeRL hcope link
tf/encoder|Error合集
普通网友: 这篇文章真是一篇佳作!作者运用了生动有趣的语言,将枯燥的理论知识娓娓道来,让人如沐春风。【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
RL强化学习基础|Q learning|test on FrozenLake代码小实验
CSDN-Ada助手: 恭喜用户发布了第9篇博客！标题中提到了Q learning在强化学习中的应用，以及在FrozenLake环境中的代码小实验，内容相当丰富和有趣。希望用户继续坚持创作，可以考虑分享更多关于RL强化学习算法的实践经验或者进阶内容，让读者可以更深入地了解这个领域。期待用户的下一篇博客！
强化学习sepsis论文复现|02 数据准备：在postgresql本地安装mimic-iii数据集
Sparks Fly ~: https://blog.csdn.net/2301_78042158/article/details/130617621?utm_medium=distribute.pc_relevant.none-task-blog-2~default~baidujs_baidulandingword~default-1-130617621-blog-134451815.235^v43^pc_blog_bottom_relevance_base9&spm=1001.2101.3001.4242.2&utm_relevant_index=4
python pickle
CSDN-Ada助手: 恭喜您写了这篇关于“python pickle”的博客！持续创作真的很棒，我非常期待您的下一篇文章。如果可能的话，我建议您可以尝试写一些关于Python中其他常用模块的文章，比如numpy或者pandas，这样可以让更多的读者受益。不过话说回来，我知道您一定已经有自己的计划，期待您更多精彩的文章！

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。