基于策略搜索的强化学习方法

最新推荐文章于 2024-08-11 18:21:52 发布

茶花煮酒

最新推荐文章于 2024-08-11 18:21:52 发布

阅读量1.1k

点赞数

分类专栏：强化学习与机器人控制

本文链接：https://blog.csdn.net/qq446293528/article/details/103825384

版权

强化学习与机器人控制专栏收录该内容

24 篇文章 10 订阅

订阅专栏

梯度与偏导数：

$\bigtriangledown$ ：梯度符号，求函数所有偏导数，n个偏导数一起构成n维向量，上升最快的方向。

几何意义：以二元函数f(x,y)为例,首先f(x,y)在某点(x0,y0)处的梯度是一个向量,它的方向就是函数f(x,y)在该点函数值变化最快的方向,即方向导数最大的方向,它的模就等于该点方向导数的最大值.

偏导数：研究函数 f(x,y) 沿着平行于 x 轴和平行于 y 轴两个特殊方位变动时， f(x,y) 的变化率。函数 z=f(x,y) 在(x0,y0)处对 x 的偏导数，实际上就是把 y 固定在 y0看成常数后，一元函数z=f(x,y0)在 x0处的导数。

梯度下降法：沿着梯度反方向，找到全局最小值（损失函数）。

神经网络的有效性：两层神经网络可以无限逼近任意二维连续函数。其实从输入层到隐藏层的矩阵计算，就是对输入数据进行了空间变换，使其可以被线性可分，然后输出层画出了一个分界线。而训练的过程，就是确定那个空间变换矩阵的过程。因此，多层神经网络的本质就是对复杂函数的拟合。

DQN与其他强化学习算法：策略优化的方法如策略梯度、actor-critic、DDPG等模型对大动作空间更合适

PG更新：在Policy Gradient 中，可以通过reward 来进行反向传播。当Policy Gradient 输出挑选的动作的时候，根据reward的大小来调整判断该网络是否。即当Policy Gradient网络输出动作为reward 最高的时候，会使Policy Gradient输出该动作概率增大。而当Policy Gradient 网络输出的动作的reward不是那么高的时候，则相应使Policy Gradient输出该动作的概率减小。

参考传送门：https://blog.csdn.net/kwame211/article/details/80364079 学习笔记13：随机梯度下降法（Stochastic gradient descent, SGD）

参考传送门：https://www.cnblogs.com/Renyi-Fan/p/9930760.html 神经网络的基本工作原理

反向传播与梯度下降：

参考传送门：https://blog.csdn.net/CoSineZxc/article/details/89424340

反向传播(BackPropagation)与梯度下降(Gradient Descent)

参考传送门：https://blog.csdn.net/weixin_38347387/article/details/82936585