DQN学习笔记

DQN学习笔记

马尔可夫决策过程四大基本要件

  • S状态 state

  • A动作 action

  • R即时奖励 reward 通常是a和s的函数

  • 状态间的转换规则 p ( s ′ ∣ s , a ) p(s'|s,a) p(ss,a) transiton probability

2048马尔可夫过程

基本构成

  • 状态:4*4的矩阵,每个值可以是2,4,8,…, 2 n 2^n 2n

  • 动作:上,下,左,右

  • 即时奖励:成功合成的新的数字之和

  • 状态间的转换规则:

    -初始状态是随机生成2在两个格子之中

    -新的砖块会随机出现在格子中的一个地方,可能是2或者4,随机概率未知。

其它特性

  • 状态随机可见:状态完全可见
  • 转换概率可见性:未知
  • 总奖励:所有即时奖励之和为 ∑ i Y i r i \sum_i Y^ir_i iYiri 0 < Y ≤ 1 0<Y\le1 0<Y1

值函数Value function

V(s):在经历了s之后一直能得到的最佳总奖励(一直在获得最优的策略)

贝尔曼方程KaTeX parse error: Undefined control sequence: \substack at position 6: V(s)=\̲s̲u̲b̲s̲t̲a̲c̲k̲{\max\\a}\{{{\s…

值迭代

Q函数(质量函数)

KaTeX parse error: Undefined control sequence: \substack at position 43: …_a(s,s')+\gamma\̲s̲u̲b̲s̲t̲a̲c̲k̲{\max\\a'}(Q(s'…

在经历状态s后选择了一次a之后总的最佳平均未来奖励

V(s) = max_a(Q(s,a))

DQN

原理:利用网络来进行预测下一步选择的所有奖励之和,接着贪心选择最大的。循环迭代至收敛

  • KaTeX parse error: Undefined control sequence: \substack at position 42: …_a(s,s')+\gamma\̲s̲u̲b̲s̲t̲a̲c̲k̲{\max\\a'}(Q_{\…
  • 训练目标:减少Loss( Q t a r g e t ( s , a ) , Q θ ( s , a ) Q_{target}(s,a),Q_{\theta}(s,a) Qtarget(s,a),Qθ(s,a))损失函数
  • 存在延时奖励机制

针对性的改动

  1. 固定Qvalue目标(fixed Q value target)
  2. Double DQN,用online model来确定更新目标Q value是动作的选择,但是用target model来更新Q value
  3. 优先经验重演(Prioritized Experience Replay)
  4. Dueling DQN Q(s,a) = V(s) +A(s, a)而V(s) = Q(s, a*)
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值