本周DQN实验报告

最新推荐文章于 2022-12-15 12:07:08 发布

克里斯的小屋

最新推荐文章于 2022-12-15 12:07:08 发布

阅读量297

点赞数

分类专栏：学习笔记文章标签： python 强化学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_30578751/article/details/115372381

版权

学习笔记专栏收录该内容

12 篇文章 0 订阅

订阅专栏

本周DQN实验报告

周一

周一尝试修改Reward，将奖励由原来的按具体时间给奖励，变为方差等给值方法，没有使得网络偏向理想的方向，还是出现了局部动作集中化。

周二

周二尝试修改网络，由原来的Net和Net2衍生了Net3作为迟滞网络，并尝试将Net1设置为逐步的网络（只接受非结果的所有步骤信息），将Net2设置为结果网络（只接受所有工序做完时的结果信息）。当store满时，对Net进行覆盖传值接着每一次反向传递前，运用Net3进行进行DQN传统公式计算。当store2满时，也进行相似操作。结果虽然并非只卡在一个点，但依旧集中。
在这里插入图片描述

周三

周三尝试修改传递函数，经过Debug发现，q_next的传值出现集中化现象（最大值经常出现在相同位置），out在取值的时候会出现累加的状况，导致永远是某几个点是max的结果，所以导致结果集中化。请教了师兄们和同学修改网络，进行了以下尝试：

q_next传递后进行均值初始化。结果失败，结果依然为局部集中，实际观测数据上发现为在第一次传值后，后期传递进网络的值全部都是一样的，导致所有点累加的值都是一样的，所以结果自然会选择第一次出现最大值的那个点为最大值。
out参数的处理：

a.out参数进行和上一次计算的out参数进行相减处理，取其中网络变化的差值来进行计算。结果失败，还是会陷入局部最大值

b.out参数在运行结束后，对网络进行初始化。结果失败，这样会导致网络失效

接下来要做的事

验证网络的正确性，在其他的案例面前进行测试，如果有可改动的可能性，则再次进行修改，否则去找其他案例框架进行修改使用，不再闭门造车。

克里斯的小屋

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
本周DQN实验报告

本周DQN实验报告周一周一尝试修改Reward，将奖励由原来的按具体时间给奖励，变为方差等给值方法，没有使得网络偏向理想的方向，还是出现了局部动作集中化。周二周二尝试修改网络，由原来的Net和Net2衍生了Net3作为迟滞网络，并尝试将Net1设置为逐步的网络（只接受非结果的所有步骤信息），将Net2设置为结果网络（只接受所有工序做完时的结果信息）。当store满时，对Net进行覆盖传值接着每一次反向传递前，运用Net3进行进行DQN传统公式计算。当store2满时，也进行相似操作。结果虽然并非只卡
复制链接

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。