Tricks

最新推荐文章于 2022-11-25 22:14:13 发布

*Major*

最新推荐文章于 2022-11-25 22:14:13 发布

阅读量323

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_41375318/article/details/109239707

版权

一输入信息预处理

DQN的输入信息预处理主要有两部分:针对图像的预处理，和针对游戏信息的预处理

图像部分:

Grayscale :将RGB图像压缩成grayscale图像
Down-sampling :将原本210x160的输入压缩为110x84
Cropping :裁剪得到"中央"的游戏信息区域，最终大小为84X84

游戏部分:

采用Key Frame :并不是每个frame都进行控制而是固定间隔选取Key Frame假装智能体看不见"中间过程
用4个Key Frame作为Q-Network的输入获得历史信息
Reward Clipping :将所有的reward简化为+1, -1和0

游戏部分意义：

1.使用Key Frame，主要的作用有:

加速游戏进行:计算Q-values是最耗时的步骤
减少噪声:过分紧密的Frame重复的信息很多，之前的action容易被“否决”
缩短reward signal到具体action之间的时间间隔

2.使用4个Key Frame作为输入，则可以帮助智能体获得更多有效的信息进行学习和训练
3.Reward Clipping损失了部分信息但是保证了不同游戏的reward scale相同使得可以用相同的参
数训练

二 Replay Buffer

Replay Buffer的原理:
1.储存过去遇到的transition
2.忘记太过久远的transition
3.训练时，从Replay Buffer中随机抽样进行训练

为什么要使用Replay Buffer ? Replay Buffer要怎样设置才能真正有效?

Replay Buffer生效的一个重要条件是:储存的transition的数量要合适
●数量太少,可能会导致训练数据的分布迅速变化
●数量太多，可能会使reward signal太过“稀疏”影响训练
原理:
● DQN中对神经网络的训练的本质依然是SGD，SGD要求多次利用样本，并且样本相互独立，但相邻
的transition都是高度相关的，所以要记住过去的transition-起抽样
● Replay Buffer通过"记忆”一段时间内的transition，可以让训练数据分布更为平稳
● Replay Buffer通过 "遗忘”很久之前的transition保证记住的分布大致模拟当前policy的分布从
而进行policy update
● 可以多次重复采样提升了data efficiency

三 SemiGradient Method

和之后的Q函数共享参数，但实际上并不参加导数计算，这种方法称为SemiGradient Method。

四实验设置

训练时的细节设置:

Key Frame选取:每3或4帧
ε- Greedy : ε从1开始，线性减少，一百万frame后固定为0.1
每个游戏训练一千万帧，Replay Buffer储存一百万帧

评估时:

ε=0.05
测试有两种:固定总帧数比较reward，固定episode数比较reward

五如何才知道智能体正在被训练?

1.每个episode做evaluation，查看reward

在这里插入图片描述

2.选取一些state，每个episode查看这些state的maximum Q value

在这里插入图片描述

3.还有一个思路是记录训练中的reward查看趋势

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Tricks

一输入信息预处理二 Replay Buffer三 SemiGradient Method
复制链接

扫一扫

*Major* CSDN认证博客专家 CSDN认证企业博客

码龄7年

2725: 原创

5792: 周排名

227: 总排名

289万+: 访问

: 等级

4万+: 积分

1839: 粉丝

2457: 获赞

588: 评论

9713: 收藏

私信

关注

热门文章

分类专栏

笔记

最新评论

Halcon中数组和矩阵的创建和基本运算
CSDN-Ada助手: 哇, 你的文章质量真不错，值得学习！不过这么高质量的文章, 还值得进一步提升, 以下的改进点你可以参考下: (1)增加除了各种控件外，文章正文的字数；(2)提升标题与正文的相关性；(3)使用更多的站内链接。
Halcon算子之min_max_gray
lovn650: 输出的min,max,range都是0怎么办
segmentation_models.pytorch的基础使用教程
yuan_ya_ya: 你好，NameError: name 'CFG' is not defined，CFG没有呢.怎么解决?小白
Linux(Centos为例)使用Docker安装Label-Studio
mazhichong: 如何在服务器上部署呢
Linux(Centos为例)使用Docker安装Label-Studio
mazhichong: 为什么我的第一条命令输入以后，一直没反应

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

2024

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。