![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
深入浅出强化学习编程实战
文章平均质量分 70
Mr_Wang_up
这个作者很懒,什么都没留下…
展开
-
深入浅出强化学习编程实战——第七章笔记2
一、回顾 策略梯度基本思想详见:我的上一篇博客 这篇博客提到策略梯度的基本思想: 1、参数化策略 2、找到目标函数 3、通过优化目标函数找到最优策略 最终得到的目标函数的梯度为: 二、REINFORCE算法 本篇博客的目标是介绍一个利用该梯度公式来找到最优策略的一个算法:REINFORCE算法 1、梯度变形 观察上面梯度公式,内层累加时,每个t对应的 需要乘以整条轨迹的累计奖励,然而当前t时刻的动作其实和过去的奖励是没有关系的,所以该公式可以改成: 这相当于引入了因果..原创 2021-07-28 22:58:53 · 184 阅读 · 0 评论 -
深入浅出强化学习编程实战——第七章笔记
深入浅出强化学习编程实战(第7章) ---策略梯度方法 一、缘由 1、概述 RL的目的是找到一种可以得到最大累计奖励的策略,其中有两大思路: (1) 基于值的方法:基本思路是根据与环境交互,利用算法,计算得到状态值V和状态行为值Q,然后根据V&Q利用贪婪策略或其他策略来求出最终的Agent的策略。 (2) 基于策略的方法:不同于值方法,策略方法不需要计算V&Q,而是利用算法直接根据状态计算得到策略。 通俗来讲,基于值的方法为:,而基于策略的方法为:。...原创 2021-04-26 14:44:50 · 513 阅读 · 0 评论 -
深入浅出强化学习编程实战——第一章笔记
深入浅出强化学习编程实战(第一章) 一个极其简单的强化学习案例 1、策略将除去最优动作之外的其他动作看作是相等的动作,没有好坏之分,所以其他动作被选择的概率都是原创 2021-03-13 21:15:15 · 1066 阅读 · 1 评论