增强学习Reinforcement Learning经典算法梳理1：policy and value iteration

最新推荐文章于 2024-05-09 14:17:56 发布

songrotek

最新推荐文章于 2024-05-09 14:17:56 发布

阅读量2.8w

点赞数 9

分类专栏： Deep Reinforcement Learning Reinforcement Learning 深度增强学习DRL 文章标签：增强学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/songrotek/article/details/51378582

版权

前言

就目前来看，深度增强学习（Deep Reinforcement Learning)中的很多方法都是基于以前的增强学习算法，将其中的value function价值函数或者Policy function策略函数用深度神经网络替代而实现。因此，本文尝试总结增强学习中的经典算法。

本文主要参考：

1 Reinforcement Learning: An Introduction
2 Reinforcement Learning Course by David Silver

1 预备知识

对增强学习有所理解，知道MDP，Bellman方程

详细可见：Deep Reinforcement Learning 基础知识（DQN方面）

很多算法都是基于求解Bellman方程而形成：

Value Iteration
Policy Iteration
Q-Learning
SARSA

2 Policy Iteration 策略迭代

Policy Iteration的目的是通过迭代计算value function 价值函数的方式来使policy收敛到最优。

Policy Iterat

最低0.47元/天解锁文章

关注

9
点赞
踩
43

收藏

觉得还不错? 一键收藏
3
评论
增强学习Reinforcement Learning经典算法梳理1：policy and value iteration

前言就目前来看，深度增强学习（Deep Reinforcement Learning)中的很多方法都是基于以前的增强学习算法，将其中的value function价值函数或者Policy function策略函数用深度神经网络替代而实现。因此，本文尝试总结增强学习中的经典算法。本文主要参考：1 Reinforcement Learning: An Introduction 2 Reinforcem
复制链接

扫一扫

专栏目录

评论 3

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。