强化学习与深度,神经网络的结合随记

84*84*4表示一个state,4表示4帧图像。

每个像素点都有0-255种可能取值,256的84*84*4次幂表示4张图全部像素点的总共可能性取值。说明如果全部像素点都拿来做state,那Q-table就太大了。

可不可以借助神经网络来做?

改变每个像素点的值,转换为黑白图像:0代表黑色,255代表白色。黑色是可以走的区域,白色是不可以走的区域。每4帧图像为一个state

每个位置都有一个当前最优解,但是不是全局最优解呢?我们之前的解都是根据贪心的选择做最优的解,如果加上一些探索(比如10%可能性不走当前最优解,在最优解和其他解当中随机的选一个),尝试全局最优解。

开发:每次按贪心的选择去走最好的一个方向。但是要让网络泛化能力更强,因为神经网络有时会过拟合,所以要加上一些探索,使得网络能够去发现一些新的东西。

例如贪心为10%,那么它有90%按正常去走,10%按随机去走。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值