人工智能教程 - 专业选修课程4.3.5 - 强化学习 10.策略评估,策略迭代

最新推荐文章于 2023-09-09 11:17:11 发布

KuFun元宇宙

最新推荐文章于 2023-09-09 11:17:11 发布

阅读量227

点赞数

分类专栏：专业选修课程

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/fsdaewrq/article/details/104608488

版权

专业选修课程专栏收录该内容

32 篇文章 4 订阅

订阅专栏

策略评估 Policy Evaluation

问题：评估策略 $\pi$ Problem: evaluate a given policy $\pi$
解决方案：贝尔曼期望的迭代应用 Solution: iterative application of Bellman expectation backup
$v_1 → v_2 → ... → v_\pi$
使用同步备份(迭代) Using synchronous backups,
- At each iteration k + 1
- For all states s ∈ S
- Update $v_{k+1}(s)$ from $v_k (s')$
- where s’ is a successor state of s

小世界网格

在这里插入图片描述
智能体使用统一概率随机策略(uniform random policy)

π(n|·) = π(e|·) = π(s|·) = π(w|·) = 0.25

在这里插入图片描述

通过循环迭代，得到最佳策略

在这里插入图片描述

策略迭代

在这里插入图片描述

使用了贪心算法，通过反复迭代，最终收敛到最佳策略。

图形化其收敛过程：

在这里插入图片描述

改进的决策算法

在这里插入图片描述

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
人工智能教程 - 专业选修课程4.3.5 - 强化学习 10.策略评估,策略迭代

策略评估 Policy Evaluation问题：评估策略π\piπ Problem: evaluate a given policy π\piπ解决方案：贝尔曼期望的迭代应用 Solution: iterative application of Bellman expectation backupv1→v2→...→vπv_1 → v_2 → ... → v_\piv1→v2→......
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。