DQN学习笔记

最新推荐文章于 2024-04-08 14:17:55 发布

克里斯的小屋

最新推荐文章于 2024-04-08 14:17:55 发布

阅读量441

点赞数

分类专栏：学习笔记文章标签：强化学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_30578751/article/details/112788062

版权

学习笔记专栏收录该内容

12 篇文章 0 订阅

订阅专栏

DQN学习笔记

马尔可夫决策过程四大基本要件

S状态 state
A动作 action
R即时奖励 reward 通常是a和s的函数
状态间的转换规则 $p (s^{'} ∣ s, a)$ transiton probability

2048马尔可夫过程

基本构成

状态：4*4的矩阵，每个值可以是2,4,8，…， $2^n$
动作：上，下，左，右
即时奖励：成功合成的新的数字之和
状态间的转换规则：

-初始状态是随机生成2在两个格子之中

-新的砖块会随机出现在格子中的一个地方，可能是2或者4，随机概率未知。

其它特性

状态随机可见：状态完全可见
转换概率可见性：未知
总奖励：所有即时奖励之和为 $\sum_i Y^ir_i$ $0<Y\le1$

值函数Value function

V(s)：在经历了s之后一直能得到的最佳总奖励(一直在获得最优的策略)

贝尔曼方程 $KaTeX parse error: Undefined control sequence: \substack at position 6: V(s)=\̲s̲u̲b̲s̲t̲a̲c̲k̲{\max\\a}\{{{\s…$

值迭代

Q函数（质量函数）

$KaTeX parse error: Undefined control sequence: \substack at position 43: …_a(s,s')+\gamma\̲s̲u̲b̲s̲t̲a̲c̲k̲{\max\\a'}(Q(s'…$

在经历状态s后选择了一次a之后总的最佳平均未来奖励

V(s) = max_a(Q(s,a))

DQN

原理：利用网络来进行预测下一步选择的所有奖励之和，接着贪心选择最大的。循环迭代至收敛

$KaTeX parse error: Undefined control sequence: \substack at position 42: …_a(s,s')+\gamma\̲s̲u̲b̲s̲t̲a̲c̲k̲{\max\\a'}(Q_{\…$
训练目标：减少Loss( $Q_{target}(s,a),Q_{\theta}(s,a)$ )损失函数
存在延时奖励机制

针对性的改动

固定Qvalue目标（fixed Q value target）
Double DQN，用online model来确定更新目标Q value是动作的选择，但是用target model来更新Q value
优先经验重演（Prioritized Experience Replay）
Dueling DQN Q(s,a) = V(s) +A(s, a)而V(s) = Q(s, a*)

克里斯的小屋

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
DQN学习笔记

DQN学习笔记马尔可夫决策过程四大基本要件S状态 stateA动作 actionR即时奖励 reward 通常是a和s的函数状态间的转换规则p(s′∣s,a)p(s'|s,a)p(s′∣s,a) transiton probability2048马尔可夫过程基本构成状态：4*4的矩阵，每个值可以是2,4,8，…，2n2^n2n动作：上，下，左，右即时奖励：成功合成的新的数字之和状态间的转换规则：-初始状态是随机生成2在两个格子之中-新的砖块会随
复制链接

扫一扫

专栏目录

克里斯的小屋 CSDN认证博客专家 CSDN认证企业博客

码龄9年

13: 原创

35万+: 周排名

181万+: 总排名

2759: 访问

: 等级

132: 积分

3: 粉丝

0: 获赞

1: 评论

4: 收藏

私信

关注

热门文章

分类专栏

Linux 4篇
Docker 3篇
学习笔记 12篇
强化学习 1篇
git 1篇
疑难杂症 1篇
Java 4篇

最新评论

强化学习卫星论文笔记
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
本周DQN实验报告
碰嚓嚓: 能给一下代码吗

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。