原创 | 一文读懂无模型的预测（强化学习二）

最新推荐文章于 2024-04-19 17:30:47 发布

数据派THU

最新推荐文章于 2024-04-19 17:30:47 发布

阅读量164

点赞数

本文链接：https://blog.csdn.net/tMb8Z9Vdm66wH68VX1/article/details/132928355

版权

本文探讨在未知马尔可夫决策过程（MDP）中如何进行无模型预测，重点介绍了蒙特卡洛策略评估和时间差分（TD）学习。通过与环境交互迭代，无模型预测无需知道MDP的具体动态和奖励。蒙特卡洛方法通过采样轨迹估算预期回报，而TD学习利用bootstrapping在不完整回合中更新价值估计。两者各有优劣，适用于不同的学习环境和条件。

摘要由CSDN通过智能技术生成

作者：黄娘球

本文约2200字，建议阅读5分钟
本文讲述无模型的预测 （Model-free Prediction）通过与环境的交互迭代来求解问题。

上文（《原创 | 一文读懂强化学习在动态规划领域的应用》）回顾了强化学习的基础概念，以及预测与控制 (求解已知的MDP)。在已知的马尔可夫决策过程（MDP）中，无论是策略迭代（policy iteration）还是价值迭代(value iteration)，都假定已知环境（Environment）的动态和奖励（dynamics and reward），然而在许多的真实世界的问题中，MDP模型或者是未知的，或者是已知的但计算太复杂。本文讲述无模型的预测与控制Model-free Prediction and Control 中的前半部分，无模型的预测（Model-free Prediction）通过与环境的交互迭代来求解问题。

注：本文整理自周博磊以及David Silver的课件，并添加了自己的总结。

Lecture 3 无模型的预测与控制(Model-free Prediction and Control)

无模型的预测与控制，即在一个未知的马尔可夫决策过程（MDP）中，估计与优化价值函数。

3.1.无模型的预测（Model-free Prediction）:

在不知道模型的情况下做策略评估，即如果我们不知道MDP模型，估计一个特定策略的期望回报。

3.1.1 蒙特卡洛策略评估（Monte-Carlo policy evaluation）

一、概述