克里斯的小屋-CSDN博客

本周DQN实验报告周一周一尝试修改Reward，将奖励由原来的按具体时间给奖励，变为方差等给值方法，没有使得网络偏向理想的方向，还是出现了局部动作集中化。周二周二尝试修改网络，由原来的Net和Net2衍生了Net3作为迟滞网络，并尝试将Net1设置为逐步的网络（只接受非结果的所有步骤信息），将Net2设置为结果网络（只接受所有工序做完时的结果信息）。当store满时，对Net进行覆盖传值接着每一次反向传递前，运用Net3进行进行DQN传统公式计算。当store2满时，也进行相似操作。结果虽然并非只卡

2021-04-01 13:50:56 359 1

原创 DQN学习笔记

DQN学习笔记马尔可夫决策过程四大基本要件S状态 stateA动作 actionR即时奖励 reward 通常是a和s的函数状态间的转换规则p(s′∣s,a)p(s'|s,a)p(s′∣s,a) transiton probability2048马尔可夫过程基本构成状态：4*4的矩阵，每个值可以是2,4,8，…，2n2^n2n动作：上，下，左，右即时奖励：成功合成的新的数字之和状态间的转换规则：-初始状态是随机生成2在两个格子之中-新的砖块会随

2021-01-18 16:34:22 529

qq_30578751的博客

原创 Docker学习笔记三（容器的数据卷）

原创 Docker学习笔记二（基础操作）

原创 Docker学习笔记一（腾讯云下安装与部署）

原创 Github遇到的问题解决方案

原创强化学习卫星论文笔记

原创 Linux复习笔记

原创动态代理复习笔记

原创 Java反射学习笔记

原创 Java网络通信编程知识点

原创多线程学习知识点笔记

原创强化学习学习

原创本周DQN实验报告

原创 DQN学习笔记

空空如也

空空如也