强化学习8、9章

最新推荐文章于 2024-10-15 19:28:18 发布

我不是小哥哥

最新推荐文章于 2024-10-15 19:28:18 发布

阅读量1.1k

点赞数

分类专栏： RL 文章标签：算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_48941999/article/details/121314486

版权

RL 专栏收录该内容

8 篇文章 1 订阅

订阅专栏

本文探讨了基于模型的强化学习，如何通过环境建模和采样优化策略，以及面对模型不确定性与近似性的解决方案。此外，介绍了衰减的ε-贪婪探索、不确定行为优先和基于信息价值的探索方法。重点讨论了Dyna算法和基于模拟的搜索在强化学习中的应用。

摘要由CSDN通过智能技术生成

八、model-based 强化学习

基于模型的强化学习：

适用于连续变量的状态和行为空间

在这里插入图片描述

假设状态转换和奖励之间是条件独立的，建立环境模型 $<P_\eta,R_\eta>$

$\begin{array}{l}S_{t+1} \sim \mathcal{P}_{\eta}\left(S_{t+1} \mid S_{t}, A_{t}\right) \\ R_{t+1}=\mathcal{R}_{\eta}\left(R_{t+1} \mid S_{t}, A_{t}\right)\end{array}$

在学习模型时，不是以Episode为最小学习单位的，而是以时间步（time-step）为单位，一次学习一个状态转换

根据模型进行采样得到虚拟序列然后通过(MC,Sarsa,Q-learning)优化价值函数

缺点：

由于基于预测的模型，所以得到的策略受模型不确定的影响，使用一个近似的模型去进行价值函数或策略函数的学习时，又会引入一次近似，双重近似可能不会收敛。如果模型不准确，那么采样的策略也会不是最优的。

解决方案：

为model设置一个模型的置信度，当模型准确度低或者当置信度低时，使用model-freed的方式

Dyna:

从与现实交互的序列中学习模型；

从现实采样序列和模拟采样序列中优化价值函数或者策略；

在这里插入图片描述

在这里插入图片描述

这个算法赋予了个体在与实际环境进行交互式时有一段时间用来思考的能力。其中的步骤：a,b,c,d,和e都是从实际经历中学习，d过程是学习价值函数，e过程是学习模型。

在f步，给以个体一定时间（或次数）的思考。在思考环节，个体将使用模型，在之前观测过的状态空间中随机采样一个状态，同时从这个状态下曾经使用过的行为中随机选择一个行为，将两者带入模型得到新的状态和奖励，依据这个来再次更新行为价值和函数。

基于模拟的搜索（Simulation-Based Search）：

是前向搜索的一种形式，从当前时刻开始，使用基于模拟采样的规划，构建一个关注与短期未来的前向搜索树，把这个搜索树作为一个学习资源，然后使用Model Free的强化学习来寻找最优策略。

简单蒙特卡罗探索

蒙特卡罗树探索

九、探索与利用

探索方法：

衰减的 $\epsilon-$ 贪婪探索：

随着时间的推移，采用随机行为的概率 ε 越来越小
$\epsilon_{t}=\min \left\{1, \frac{c|A|}{d^{2} t}\right\}, \quad d=\min _{a \mid \Delta_{a}>0} \Delta_{i} \in(0,1], c>0$
不确定行为优先探索：

当个体不清楚一个行为的价值时，个体有较高的几率选择该行为。具体在实现时可以使用乐观初始估计、可信区间上限以及概率匹配三种形式。

乐观估计：

乐观初始估计给行为空间中的每一个行为在初始时赋予一个足够高的价值，在选择行为时使用完全贪婪的探索方法，使用递增式的蒙特卡罗评估来更新价值

置信区间上限

概率匹配：

通过个体与环境的实际交互的历史信息 ht 估计行为空间中的每一个行为是最优行为的概率，然后根据这个概率来采样后续行为

基于信息价值的探索

参考链接：

https://zhuanlan.zhihu.com/reinforce

我不是小哥哥

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

我不是小哥哥 CSDN认证博客专家 CSDN认证企业博客

码龄4年

84: 原创

31万+: 周排名

10万+: 总排名

5万+: 访问

: 等级

919: 积分

82: 粉丝

76: 获赞

9: 评论

92: 收藏

私信

关注

热门文章

分类专栏

Leetcode 21篇
java后端 2篇
那些事 9篇
RL 8篇
newcoder 10篇
数据结构 7篇
PAT basic 14篇
PAT advanced 9篇
web 1篇

最新评论

228. 汇总区间
CSDN-Ada助手: 算法技能树或许可以帮到你：https://edu.csdn.net/skill/algorithm?utm_source=AI_act_algorithm
vscode-insiders Remote-SSH XHR failed无法访问远程服务器
鑫鑫看: 感谢，正解！
1094 谷歌的招聘 (20分). 测试点2，4，5
LoveRosie111: 这测试点4好无语
Find The Multiple（BFS）
努力写bug的小菜鸟: 这个超时了呀
1048 数字加密.测试点2.5
all1: [code=python] a, b = input().split() a, b = list(a), list(b) dict1 = [str(i) for i in range(10)] + ["J", "Q", "K"] a.reverse() b.reverse() i = 0 ans = [] while i < len(a) and i < len(b): if (i + 1) % 2: ans.append(dict1[(int(a[i]) + int(b[i])) % 13]) else: temp = int(b[i]) - int(a[i]) if temp < 0: temp += 10 ans.append(dict1[temp]) i += 1 while i < len(a): ans.append(a[i]) i += 1 while i < len(b): ans.append(b[i]) i += 1 ans.reverse() while ans[0] == "0" and len(ans) > 1: ans = ans[1:] print("".join(ans)) [/code] 我考虑了长度不一的情况,所以在后面加了两个while,无论是规则奇数还是偶数,与0计算应该都不会改变数值才对,所以直接加上原数值.但也通不过测试点2 5

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。