【/强化学习7日打卡营-世界冠军带你从零实践/课程摘要和调参心得-No.4】基于策略梯度求解RL

FlyingPie

于 2020-06-27 15:17:10 发布

阅读量292

点赞数

分类专栏：深度学习文章标签：强化学习深度学习算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/BobAuditore/article/details/106982570

版权

深度学习专栏收录该内容

13 篇文章 0 订阅

订阅专栏

一、学习内容

4.基于策略梯度求解RL

4.1随机策略与策略梯度

先来复习一下之前讲的value-based和policy-based的RL方法：

Policy-based的方法可直接输出动作的概率，比较适用于随机性策略

具体来说就是在网络里面使用常见的softmax函数

为了方便大家理解，这里举个Pong游戏的例子：

策略是一个episode完了才能评估的，目的是为了让总的Reward尽可能大：

策略的状态转移轨迹可以用以下流程来表示：

轨迹发生的概率和策略的期望回报的关系如下：

对比一下DQN和PolicyGradient里面的优化过程：

策略梯度法在优化过程中，会选择loss最小的那一条轨迹

4.2PolicyGradient（策略梯度）算法

区别于DQN中的TD单步更新，经典的PG里面用的是蒙特卡洛回合（episode）制更新：

具体到代码就是从后向前计算所有reward的和。这里特别提醒下，sarsa中，reward是下一时刻的reward，和后面的sa是下标一样的。

从算法流程来看，刚才reward折算的过程就是倒数第二行：

类比监督学习来理解PolicyGradient，上面是MNIST的监督学习网络，下面是PolicyGradient中监督的过程（可以看到，多乘了一项rewardG_t作为监督项）：

具体Loss的代码定义如下（注意-R后面少了个左括号）：

4.3PG代码

PolicyGradient的REINFORCE算法整体流程如下：

可见PARL框架也是早就设计好了：）

代码文件结构如下：

CartPole例子的PG算法训练结果：

model代码：

algorithm代码

agent代码

训练代码

运行展示

4.4总结、作业、公式推导

策略梯度（PG）方法的一个总结：

PolicyGradient解决Pong问题的一个示例：

图像预处理的技巧：

reward的衰减和正则化：

PolicyGradient算法的原理推导（这里讲的非常好，很多书和材料都没有推导）。

注意2点：

1.蓝框里的是一个近似变换，使用了log函数

2.使用log函数后，状态转移概率p因为都没有对theta求导，因此可以删掉

注意最下方公式最右边有点小错误，很好理解，按马尔科夫链，应该是s2，a2，李科浇老师是直接复制过来忘改了。这里改正为：

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
【/强化学习7日打卡营-世界冠军带你从零实践/课程摘要和调参心得-No.4】基于策略梯度求解RL

一、学习内容4.基于策略梯度求解RL4.1随机策略与策略梯度先来复习一下之前讲的value-based和policy-based的RL方法：Policy-based的方法可直接输出动作的概率，比较适用于随机性策略具体来说就是在网络里面使用常见的softmax函数为了方便大家理解，这里举个Pong游戏的例子：策略是一个episode完了才能评估的，目的是为了让总的Reward尽可能大：策略的状态转移轨迹可以用以下流程来表示：轨迹发生的概率和策略的
复制链接

扫一扫

专栏目录

FlyingPie CSDN认证博客专家 CSDN认证企业博客

码龄12年

20: 原创

14万+: 周排名

132万+: 总排名

8万+: 访问

: 等级

728: 积分

13: 粉丝

29: 获赞

7: 评论

64: 收藏

私信

关注

热门文章

分类专栏

机器学习 1篇
Linux 2篇
深度学习 13篇
工具 3篇
Python 2篇

最新评论

windows上的cuda8和cuda9切换，win10 + vs2015
我有明珠一颗: 太棒啦，我这边是为了配合tensorflow，甚至都不用把“Path中CUDA9的路径改成非实际路径”这一步，直接重启pycharm，就可以用了，显示：Successfully opened dynamic library cudart64_100.dll
windows上的cuda8和cuda9切换，win10 + vs2015
大扬哥啦啦啦: 你好请问使用python也是要重启vs么？还是怎么操作
windows上的cuda8和cuda9切换，win10 + vs2015
The_Matrix_: 总结的很好
Caffe多任务训练时忽略部分无用或未标注类标
gailysun: 作者好，请问你说的“多任务训练的时候，假设有N个任务，但部分图片类标不全，或者只对其中x（0<x<N）个任务有用，该怎么训练呢？这在tensorflow里面很好实现，合并loss的时候加上判断就行了”请问这个在tensorflow里具体是怎么操作的，求指教
N卡双显卡电脑装ubuntu15.04并配置Anaconda+Tensorflow+cuda+cuDNN的深度学习环境
monkey66da: 引用「monkey66da: 我没打过这个命令，不过首先你用的是15.04吗？...」我把我的安装经历写了下来，希望博主帮忙看下问题，谢谢！http://blog.csdn.net/u011918106/article/details/53352584

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。