基于策略搜索的强化学习方法

梯度与偏导数:

\bigtriangledown:梯度符号,求函数所有偏导数,n个偏导数一起构成n维向量,上升最快的方向。

几何意义:以二元函数f(x,y)为例,首先f(x,y)在某点(x0,y0)处的梯度是一个向量,它的方向就是函数f(x,y)在该点函数值变化最快的方向,即方向导数最大的方向,它的模就等于该点方向导数的最大值.

偏导数:研究函数 f(x,y) 沿着平行于 x 轴和平行于 y 轴两个特殊方位变动时, f(x,y) 的变化率。函数 z=f(x,y) 在(x0,y0)处对 x 的偏导数,实际上就是把 y 固定在 y0看成常数后,一元函数z=f(x,y0)在 x0处的导数。

梯度下降法:沿着梯度反方向,找到全局最小值(损失函数)。

神经网络的有效性:两层神经网络可以无限逼近任意二维连续函数。其实从输入层到隐藏层的矩阵计算,就是对输入数据进行了空间变换,使其可以被线性可分,然后输出层画出了一个分界线。而训练的过程,就是确定那个空间变换矩阵的过程。因此,多层神经网络的本质就是对复杂函数的拟合。

DQN与其他强化学习算法:策略优化的方法如策略梯度、actor-critic、DDPG等模型对大动作空间更合适

PG更新:在Policy Gradient 中,可以通过reward 来进行反向传播。当Policy Gradient 输出挑选的动作的时候,根据reward的大小来调整判断该网络是否。即当Policy Gradient网络输出动作为reward 最高的时候,会使Policy Gradient输出该动作概率增大。而当Policy Gradient 网络输出的动作的reward不是那么高的时候,则相应使Policy Gradient输出该动作的概率减小。 

参考传送门:https://blog.csdn.net/kwame211/article/details/80364079 学习笔记13:随机梯度下降法(Stochastic gradient descent, SGD)

参考传送门:https://www.cnblogs.com/Renyi-Fan/p/9930760.html 神经网络的基本工作原理

反向传播与梯度下降:

参考传送门:https://blog.csdn.net/CoSineZxc/article/details/89424340

反向传播(BackPropagation)与梯度下降(Gradient Descent)

参考传送门:https://blog.csdn.net/weixin_38347387/article/details/82936585

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
强化学习是一种机器学习方法,通过学习如何在动态环境中最大化某种奖励信号来实现智能决策。策略强化学习强化学习的一种方法,它通过学习如何在策略空间中搜索最优策略来实现强化学习。 在策略强化学习中,智能体通过与环境交互来学习最优策略。智能体在每个时间步骤中观察到环境状态,然后根据当前策略做出行动,并且从环境中获得奖励信号。智能体的目标是学习一个最优策略,使得在长期的时间内能够获得最大的奖励。 在策略强化学习中,策略是指智能体在每个状态下采取行动的概率分布。学习最优策略的过程可以通过策略梯度方法来实现。策略梯度方法是一种直接优化策略方法,它通过计算策略的梯度来更新策略参数,使得策略能够越来越接近最优策略策略梯度方法的核心思想是通过梯度上升来更新策略参数。具体来说,首先通过策略网络将状态映射到行动概率分布上,然后使用采样的方式从行动概率分布中采样出实际的行动,然后根据采样的行动和奖励信号计算损失函数,并通过梯度上升来更新策略参数。通过不断迭代,策略会逐渐收敛到最优策略策略梯度方法有很多变种,包括REINFORCE算法、Actor-Critic算法、PPO算法等。REINFORCE算法是一个基本的策略梯度方法,它通过蒙特卡罗采样来估计损失函数,并使用梯度上升来更新策略参数。Actor-Critic算法是一种基于价值函数的策略梯度方法,它同时学习策略和价值函数,并使用价值函数来指导策略的更新。PPO算法是一种基于重要性采样的策略梯度方法,它通过使用多个策略来构造重要性采样比率,并通过剪切梯度来控制策略更新的幅度,从而达到更稳定的策略学习效果。 总之,策略强化学习是一种非常强大的机器学习方法,它可以在不确定的环境中学习最优策略,从而实现自主决策和智能控制。在实际应用中,策略强化学习已经被广泛应用于机器人控制、游戏智能、自然语言处理等领域,取得了很多重要的进展和应用。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值