【笔记2-4】李宏毅深度强化学习笔记(四)Actor-Critic

本文回顾了Policy Gradient和Q-Learning,详细介绍了Actor-Critic算法,包括Advantage Actor-Critic(A2C)和Asynchronous Advantage Actor-Critic(A3C)。A3C通过多工人并行训练提高效率,Pathwise Derivative Policy Gradient让Critic指导Actor选择最优行动。
摘要由CSDN通过智能技术生成

李宏毅深度强化学习课程 https://www.bilibili.com/video/av24724071

李宏毅深度强化学习笔记(一)Outline
李宏毅深度强化学习笔记(二)Proximal Policy Optimization (PPO)
李宏毅深度强化学习笔记(三)Q-Learning
李宏毅深度强化学习笔记(五)Sparse Reward
李宏毅深度强化学习笔记(六)Imitation Learning
李宏毅深度强化学习课件

Asynchronous Advantage Actor-Critic (A3C)

回顾 – Policy Gradient

先对policy gradient进行回顾,只需要记得几个要点:

  1. 给定某个state采取某个action的概率
  2. 考虑到行动输出的概率和为一,为了保证reward越大的有更大的概率被sample到,需要加上baseline b
  3. 考虑到当先action对过去的reward没有影响,从当前时间点开始进行reward的累加
  4. 考虑到时间越久,当前action对后期reward的影响越小,添加折扣系数 γ \gamma γ

由于无法sample到如此多的G,因此我们引入了Q-learning
在这里插入图片描述

回顾 – Q-Learning

Q-learning部分主要记住以下几个点:
状态价值函数 V π ( s ) V^\pi(s) Vπ(s)(state value function,表示当使用某个actor时,观察到state之后预计会得到的累积reward)

状态行动价值函数 Q π ( s , a ) Q^\pi(s, a) Qπ(s,a)(state-action value function,当使用某个actor与环境互动时,在某个state采取某个action预计会得到的累积reward)

  • 15
    点赞
  • 41
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值