深度强化学习笔记

本文讨论了强化学习中DQN算法在离散动作选择中的应用,强调了DQN可能产生的误差问题。同时介绍了双Q-learning解决过估计问题的方法。还提到了状态价值函数在PolicyGradients中的挑战以及如何通过神经网络模型化、蒙特卡洛近似和target网络进行优化。
摘要由CSDN通过智能技术生成

总共两个主要点,1.动作价值函数衍生出的DQN等,一般使用误差

2.状态价值函数衍生出的状态价值函数。Policy Gradients 中无法使用策略的误差来构建损失函数,因为参数更新的目标是最大化累积奖励的期望值

通过对某含部分的神经网络模型化,或采用蒙特卡洛近似,或建立target网络衍生出一系列模型

1.DQN、双Q

2.

在强化学习中,对于离散化的动作的学习,都是以DQN为基础的,DQN则是通过的最大化动作价值函数 的方式去选择动作,往往都会过大的估计价值函数,从而造成误差。

Double Q-learning构建两个动作价值函数,一个用于估计动作,另外一个用于估计该动作的价值

2

B站王树森DRL

  • 3
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值