Policy Gradient Theorem Explained-视频总结笔记（待续。。）

最新推荐文章于 2022-11-05 13:19:21 发布

嘻嘻嘻嘻嘻雅

最新推荐文章于 2022-11-05 13:19:21 发布

阅读量263

点赞数

文章标签：深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/github_37991992/article/details/115107519

版权

Policy Gradient Theorem Explained

Policy Gradient Thorem Explained
视频很容易懂，但看得我很有睡意可能英语不够好吧，所以总结一下做个笔记-.-!

Intro

首先定义了这样一种游戏规则

这个游戏有这样几种可能性

在这里插入图片描述

数学推导

Expected Result: 指得是一路上概率（pro）*奖励（reward）的和
比如上图右下 R = 0.3 x 10

所以全部的Expected Result为：
在这里插入图片描述
然后做偏导，做backpropogation
以action=1 概率为0.7为例，我们替换所有的0.7为X

则偏导为:

当这些那么把所有的 概率值 改为要学习和调节的变量：
在这里插入图片描述
则整个网络的公式应该为：

对每个变量做偏导，用来更新 weights 和 bias
在这里插入图片描述
如果多次采样：

不太懂为啥要变log(我好菜…)

代码实现

在这里插入图片描述

具体网络搭建参考这个https://github.com/gabrielgarza/openai-gym-policy-gradient/blob/b187780b12c28bb5a127e97a6fcb37ac15c4076c/run_mountaincar.py 代码

嘻嘻嘻嘻嘻雅

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Policy Gradient Theorem Explained-视频总结笔记（待续。。）

这里写自定义目录标题Policy Gradient Theorem ExplainedIntro数学推导代码实现注释也是必不可少的KaTeX数学公式Policy Gradient Theorem ExplainedPolicy Gradient Thorem Explained视频很容易懂，但看得我很有睡意可能英语不够好吧，所以总结一下做个笔记-.-!Intro首先定义了这样一种游戏规则这个游戏有这样几种可能性数学推导Expected Result: 指得是一路上概率（pro）*奖励
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。