【CS231n】十四、深度强化学习

最新推荐文章于 2024-05-29 15:49:22 发布

Mys_GoldenRetriever

最新推荐文章于 2024-05-29 15:49:22 发布

阅读量402

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Mys_GoldenRetriever/article/details/82113081

版权

本文介绍了深度强化学习的基本概念，包括强化学习的定义、马尔科夫决策过程（MDP）、Q-学习和策略梯度。Q-学习用于优化Q值函数，而策略梯度则解决了高维复杂问题，通过梯度上升策略寻找最优参数。文章还探讨了策略梯度中降低方差的方法和Actor-Critic算法的应用。

摘要由CSDN通过智能技术生成

一、概览

1、什么是强化学习？

2、马尔科夫决策过程。

3、Q-学习。

4、策略梯度（Policy Gradients）

二、强化学习

1、概念：

强化学习，假设有一个代理人（Agent，CS中的一个概念，下简写为Agn）和其相应的环境（Environment，下简写为Env）。若Env给Agn一个状态（state st），则Agn给Env一个反馈动作（Action at）。而后Env再反馈给Agn一个奖励（Reward,或者称为回馈）以及Env的下一个状态（state st+1）。如此往复循环。

【CS231n】十四、深度强化学习

举个栗子，小游戏是比较典型的强化学习案例。

目标是获得高分，环境状态是原始的游戏图像像素输入，动作是游戏需要的操作，奖励就是每个回合分数增减。

【CS231n】十四、深度强化学习

三、马尔科夫决策过程（Markov Decision Process，MDP）

1、定义

是Mathematical formulation of the RL problem （这个没看懂）

马尔科夫性质（Markov property）:当前状态完全地决定了全局状态（Current state completely characterises the states of the world）。

数学定义：

【CS231n】十四、深度强化学习

算法过程抽象：

最低0.47元/天解锁文章

Mys_GoldenRetriever

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
【CS231n】十四、深度强化学习

一、概览1、什么是强化学习？2、马尔科夫决策过程。3、Q-学习。4、策略梯度（Policy Gradients）二、强化学习1、概念：强化学习，假设有一个代理人（Agent，CS中的一个概念，下简写为Agn）和其相应的环境（Environment，下简写为Env）。若Env给Agn一个状态（statest），则Agn给Env一个反馈动作（Action...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。