重温强化学习之策略梯度算法

最新推荐文章于 2022-04-21 14:26:22 发布

BUPT-WT

最新推荐文章于 2022-04-21 14:26:22 发布

阅读量3.5k

点赞数 2

分类专栏：强化学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_41362649/article/details/85305950

版权

强化学习专栏收录该内容

17 篇文章 4 订阅

订阅专栏

1、介绍

这里仍考虑无模型的方法：策略是从值函数中导出的，使用贪婪的方法导出最优策略，使用e贪婪策略导出行为策略，直接参数化策略

考虑之前强化学习分类：

基于值函数的方法：学习值函数、用值函数导出策略

基于策略的方法：没有值函数，学习策略

Actor-Critic:学习值函数、学习策略

为什么需要使用策略梯度算法？

基于值函数方法的局限性：针对确定性策略，策略退化、难以处理高维度的状态或动作空间（不能处理连续的状态动作空间）、收敛速度慢

策略模型的建模方式：

策略梯度算法的优缺点：

优点：更好的收敛性、能够有效的处理高维和连续的动作空间、能够学到随机策略、不会导致策略退化

缺点：更容易收敛到局部最优值，难以评价一个策略，而且评价的方差较大

随机策略例子：

策略退化：

真实的最优值函数会导致真实的最优策略，然而近似的最优值函数可能导致完全不同的策略

收敛性对比：

基于值函数的方法：收敛慢，需要对V或Q和pi交替优化，方差小

策略梯度方法：收敛快，直接对pi进行优化，方差大

2、策略梯度定理

策略梯度目标函数：

数值法求梯度：

策略梯度算法：

策略梯度推导：

目标函数说明：

从似然度的角度：

从重要性采样的角度：

似然率梯度的理解：

似然率梯度的理解：

将轨迹分解成状态和动作：

似然率梯度估计：

3、减少方差

方差大

如果所有的R(t)都是正的，那么所有动作出现的概率都会增加

可以通过下列方法减少方差：

引入基线(baseline)

修改回报函数

Actor-Critic方法

优势函数

引入基线：

怎么选择基线？

最小方差：

修改回报函数：

4、Actor-Critic

实际更新算法：

MC策略梯度(REINFORCE)

使用Critic函数减小方差：

使用优势函数减小方差：

优势函数：

使用TD误差替代优势函数：

带资格迹的策略梯度：

Advantage Actor-Critic算法

其它策略梯度算法：

关注

2
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
重温强化学习之策略梯度算法

1、介绍这里仍考虑无模型的方法：策略是从值函数中导出的，使用贪婪的方法导出最优策略，使用e贪婪策略导出行为策略，直接参数化策略考虑之前强化学习分类：基于值函数的方法：学习值函数、用值函数导出策略基于策略的方法：没有值函数，学习策略 Actor-Critic:学习...
复制链接

扫一扫

专栏目录

BUPT-WT CSDN认证博客专家 CSDN认证企业博客

码龄7年

793: 原创

12万+: 周排名

83万+: 总排名

61万+: 访问

: 等级

1万+: 积分

362: 粉丝

259: 获赞

100: 评论

1128: 收藏

私信

关注

分类专栏

最新评论

基于文本挖掘的企业隐患排查质量分析模型
Yini_Xi: 您好，现在网站已经打不开了，能分享一下数据源吗？我想自己试试看，谢谢
GGNN(Gated Graph Sequence Neural Networks)
LuLuYao9494: 论文里面说了，是为了output sequence，输出不一样。看源论文比较好
《程序员代码面试指南第二版》Python实现（个人读书笔记）
tianqi911: 我靠神人呀。怎么评论怎么少？？？好厉害呀。自己能写出来这些代码，太NB了。
爬取热搜电影数据及Pycharts数据分析
BUPT-WT: x轴全显示 bar = (Bar() .add_xaxis(list(salary_df_top15['薪水'])) .add_yaxis('', list(salary_df_top15['数量'])) .set_global_opts( xaxis_opts=opts.AxisOpts(axislabel_opts={"rotate":45}), yaxis_opts=opts.AxisOpts(name='薪资分布'), title_opts=opts.TitleOpts(title="大数据岗位薪资分布(top15)")) ) bar.render_notebook()
python plt画图不显示中文
BUPT-WT: import matplotlib.pyplot as plt

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。