无模型深度强化学习算法

  • 无模型深度强化学习算法:直接训练类神经网络模型来表示策略{\displaystyle \pi (a|s)}。这里的“无模型”指的是不建立环境模型,而非不建立任何机器学习模型。这样的策略模型可以直接用策略梯度(policy gradient)[3]训练,但是策略梯度的变异性太大,很难有效率地进行训练。更进阶的训练方法尝试解决这个稳定性的问题:可信区域策略最佳化(Trust Region Policy Optimization,TRPO)[4]、近端策略最佳化(Proximal Policy Optimization,PPO)[5]。另一系列的无模型深度强化学习算法则是训练类神经网络模型来预测未来的奖励总和{\displaystyle V^{\pi }(s)}{\displaystyle Q^{\pi }(s,a)}[6],这类算法包括时序差分学习 TD、深度Q学习 DQN、SARSA。如果动作空间是离散的,那么策略{\displaystyle \pi (a|s)}可以用枚举所有的动作来找出{\displaystyle Q}函数的最大值。如果动作空间是连续的,这样的{\displaystyle Q}函数无法直接建立策略{\displaystyle \pi (a|s)},因此需要同时训练一个策略模型[7][8][9],也就变成一种“演员-评论家actor-critic”算法。

以上来自wikipedia。

无模型深度强化学习算法可分为两类:

一类是直接根据策略梯度更新策略,获得最优策略;

一类是通过奖励函数V或Q来评价策略的好坏,在当前状态下选择动作的策略能使agent/actor获得最大的累计奖励就是最好的策略,actor-critic中actor是根据状态选择动作的策略网络,critic是根据状态/状态+动作评价当前策略优劣的评价网络。

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
深度强化学习算法模型有很多,以下是一些常见的算法模型: 1. DQN(Deep Q-Network):是一种基于深度学习的强化学习算法,通过使用深度神经网络来近似 Q 值函数,以实现在高维度状态空间下的最优决策策略。DQN 的一个主要优点是可以将 RL 问题转化为监督学习问题,从而可以使用深度学习中的优化技术来训练模型。 2. Actor-Critic:是一种基于价值函数和策略函数的深度强化学习算法,通过使用深度神经网络来近似价值函数和策略函数,以实现最优决策策略。Actor-Critic 算法通常包含一个 Actor 网络和一个 Critic 网络,Actor 网络用于制定决策策略,Critic 网络用于评估行动的好坏程度。 3. A3C(Asynchronous Advantage Actor-Critic):是一种基于 Actor-Critic 的深度强化学习算法,通过使用多个异步的 Agent 来加速训练过程。A3C 算法可以有效地处理高维度、连续型的输入数据,例如图像、语音等。 4. DDPG(Deep Deterministic Policy Gradient):是一种基于策略梯度的深度强化学习算法,主要用于处理连续型动作空间下的决策问题。DDPG 算法通过使用深度神经网络来近似策略函数和值函数,以实现最优决策策略。 5. SAC(Soft Actor-Critic):是一种基于策略梯度的深度强化学习算法,通过使用最大熵策略来实现更加鲁棒和灵活的决策策略。SAC 算法通过使用深度神经网络来近似策略函数和值函数,以实现最优决策策略。 总之,深度强化学习算法模型有很多,上述的算法模型只是其中的一部分。这些算法模型都有各自的优点和局限性,选择合适的算法模型取决于具体的应用场景和任务需求。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值