强化学习——策略优化（笔记）

最新推荐文章于 2024-08-05 16:30:51 发布

我是。

最新推荐文章于 2024-08-05 16:30:51 发布

阅读量3.4k

点赞数 7

分类专栏：强化学习 tensorflow2.0 文章标签：深度学习 python 强化学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_41045354/article/details/104123147

版权

本文深入探讨策略优化的数学基础，介绍最简单的策略梯度推导及其在强化学习中的应用。通过实例展示了使用TensorFlow实现策略梯度更新，并讨论了作为损失函数的特殊性质，强调不应过分依赖损失减少来评估策略性能，而应关注平均回报率。

摘要由CSDN通过智能技术生成

本文将会讨论策略优化的数学基础，并且会附上简单的实践代码。三个要点

一个简单的等式，将策略梯度跟策略模型参数连接起来
一条规则，允许我们将无用的项从等式里去掉
另一条规则，允许我们在等式中添加有用的项

推导最简单的策略梯度

在这里，我们考虑随机参数化策略的情况 $\pi _ {\theta}$ 。我们的目标是使预期收益 $J(\pi _ {\theta})= \underset{\tau \sim \pi _ {\theta} }{E}[ {R(\tau)}]$ 最大化。出于此推导的目的，我们将 $R(\tau)$ 设为有限无折扣收益（无限折现收益设置的推导几乎相同）。

我们想要通过梯度上升来优化策略，例如：
$\theta_{k+1} = \theta_k + \alpha \left. \nabla_{\theta} J(\pi_{\theta}) \right|_{\theta_k}$

其中 $\nabla_{\theta}J(\pi_{\theta})$ 称为策略梯度，利用策略梯度来优化策略模型这种方法叫做策略梯度算法，例如VPG、TRPO。PPO通常也被称为策略梯度算法，但是这有点不太准确）

要实际使用此算法，我们需要一个可以通过数值计算的策略梯度表达式。这涉及两个步骤：

得出策略模型的可解析的梯度，其形式跟期望值相差不大，
对期望值进行样本估计，使其可以使用代理与环境交互产生的数据进行计算

在本小节中，我们将找到该表达式的最简单形式。在后面的小节中，我们将展示如何以最简单的形式进行改进，以获取我们在标准策略梯度实现中实际使用的版本。

1.序列的概率。由 $\pi _ {\theta}$ 产生动作， $\tau =(s_0,a_0,...,s_ {T + 1})$

最低0.47元/天解锁文章

关注

7
点赞
踩
12

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

我是。 CSDN认证博客专家 CSDN认证企业博客

码龄7年

86: 原创

2万+: 周排名

205万+: 总排名

69万+: 访问

: 等级

6646: 积分

1512: 粉丝

1781: 获赞

300: 评论

3943: 收藏

私信

关注

热门文章

分类专栏

笔记
数学问题2 9篇
pybullet 9篇
数学问题 20篇
ros 1篇
matplotlib 5篇
pybind11 4篇
webots 6篇
Qt 1篇
others 1篇
预测控制 1篇
tensorflow2.0 5篇
pyglet 2篇
机器学习 5篇
嵌入式 1篇
四足机器人 31篇
gazebo 2篇
强化学习 8篇

最新评论

【webots教程】简单的避障机器人
2301_79927437: 求一个机器人避障行走后的路径线图
【CPG控制】Hopf振荡器之间的耦合
QDU躺平研究生: 没有，你做四足机器人吗？以我的面试经验来看，CPG已经落伍了，机器人公司已经不用这套东西了
【CPG控制】Hopf振荡器之间的耦合
qq_45753937: 兄弟，后面有消息了吗？我也是研究这个的，想交流一下
【四足机器人那些事儿2】MiniCheetah中所使用的的足端轨迹方程
Crayon _one: 为什么只能看一半啊，什么原因
【cpg控制】HOPF振荡器动态特性分析
海~阔: 我是个小白，写了个程序，能运行 import numpy as np import matplotlib.pyplot as plt def van_der_pol_oscillator(alpha, mu, omega, dt, num_steps): # 初始化状态变量和时间数组 x = 1 y = 1 # 将y的初始值与x的初始值设定为相同 time = np.arange(0, num_steps * dt, dt) # 模拟振荡器行为 output_x = [] output_y = [] for t in time: dx_dt = alpha * (mu - x ** 2) * x - omega * y dy_dt = alpha * (mu - x ** 2) * y + omega * x x += dx_dt * dt y += dy_dt * dt output_x.append(x) output_y.append(y) return time, output_x, output_y # 设置参数并调用函数 alpha = 1.0 # 非线性项的强度 mu = 1.0 # 耗散项的参数 omega = 5 # 耦合项的强度 dt = 0.01 # 时间步长 num_steps = 1000 # 模拟步数 time, output_x, output_y = van_der_pol_oscillator(alpha, mu, omega, dt, num_steps) # 绘制输出曲线 plt.plot(time, output_x, label='x') plt.plot(time, output_y, label='y') plt.xlabel('Time') plt.ylabel('Value') plt.title('Van der Pol Oscillator (Amplitude of x and y are the same)') plt.grid(True) plt.legend() plt.show()

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

我是。 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。