DQN 算法及 Actor-Critic 算法

本文详细介绍了DQN算法的关键概念,包括深度Q学习、目标网络、经验回放以及Double和Dueling DQN的改进。同时,文章探讨了Actor-Critic方法,如A2C和A3C,以及Pathwise Derivative Policy Gradient在连续动作空间中的应用。
摘要由CSDN通过智能技术生成

DQN 算法及 Actor-Critic 算法

1 关键概念

  • DQN(Deep Q-Network): 基于深度学习的Q-learning算法,其结合了 Value Function Approximation(价值函数近似)与神经网络技术,并采用了目标网络(Target Network)和经历回放(Experience Replay)的方法进行网络的训练。

  • State-value Function: 本质是一种critic。其输入为actor某一时刻的state,对应的输出为一个标量,即当actor在对应的state时,预期的到过程结束时间段中获得的value的数值。

  • State-value Function Bellman Equation: 基于state-value function的Bellman Equation,它表示在状态 s_t 下带来的累积奖励 G_t 的期望。

  • Q-function: 其也被称为state-action value function。其input 是一个 state 跟 action 的 pair,即在某一个 state 采取某一个action,假设我们都使用 actor pi,得到的 accumulated reward 的期望值有多大。

  • Target Network: 为了解决在基于TD的Network的问题时,优化目标

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值