强化学习笔记(四)Deep Q-learning/深度Q学习

目录

知识点回顾

问题1:什么是线性函数近似方法?线性函数近似的思想是什么?

问题2:什么是DQN?DQN的挑战是什么?

问题3:Q-learning函数近似的过程中面临的问题是什么?

 问题4:DQN—experience replay

问题5:DQN—target network

问题6 :什么是DDQN?

考题1:target network

考题2:Experience replay in deep Q-learning

考题3:对于给定的 Q 函数,是否存在唯一的 A advantage function 和 V?

考题4:我们应该选择哪一个来获得最接近MC首次访问估计的V估计?


知识点回顾

分析:这题的正确选项是1,因为2错在权重w不依赖于状态,即w(s)这样的表示是错的。3错在收敛不能保证是最好的,结果可能仍然比最好的MSE解决方案差一倍。

问题1:什么是线性函数近似方法?线性函数近似的思想是什么?

用线性模型来拟合价值函数。步骤就是

  1. 先定义好特征函数,
  2. 给定状态s的时候,根据x(s)提取出特征,
  3. 然后线性叠加这些特征,
  4. 进而估计这个V值。
  5. 根据loss function来求解w这个权重。

线性函数近似的难点在于需要人为的设计好的特征 ,这个比较困难。

问题2:什么是DQN?DQN的挑战是什么?

深度Q学习将深度学习和强化学习相结合,核心就是用一个人工神经网络来代替动作价值函数,神经网络具有强大的表达能力,能够自动寻找特征,所以采用神经网络有潜力比传统人工特征强大很多。

挑战:效率问题,很多参数需要优化。死亡三角问题,也就是难以保证得到最优解。

<
  • 0
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值