- 博客(13)
- 收藏
- 关注
原创 Docker学习笔记二(基础操作)
在学习的过程中,教程推荐采用阿里云的镜像操作,这边附上阿里云官方镜像加速的地址,只要支付宝登录了即可正常跳转。
2023-06-06 16:54:01 120
原创 本周DQN实验报告
本周DQN实验报告周一周一尝试修改Reward,将奖励由原来的按具体时间给奖励,变为方差等给值方法,没有使得网络偏向理想的方向,还是出现了局部动作集中化。周二周二尝试修改网络,由原来的Net和Net2衍生了Net3作为迟滞网络,并尝试将Net1设置为逐步的网络(只接受非结果的所有步骤信息),将Net2设置为结果网络(只接受所有工序做完时的结果信息)。当store满时,对Net进行覆盖传值接着每一次反向传递前,运用Net3进行进行DQN传统公式计算。当store2满时,也进行相似操作。结果虽然并非只卡
2021-04-01 13:50:56 359 1
原创 DQN学习笔记
DQN学习笔记马尔可夫决策过程四大基本要件S状态 stateA动作 actionR即时奖励 reward 通常是a和s的函数状态间的转换规则p(s′∣s,a)p(s'|s,a)p(s′∣s,a) transiton probability2048马尔可夫过程基本构成状态:4*4的矩阵,每个值可以是2,4,8,…,2n2^n2n动作:上,下,左,右即时奖励:成功合成的新的数字之和状态间的转换规则:-初始状态是随机生成2在两个格子之中-新的砖块会随
2021-01-18 16:34:22 529
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人