每个像素点都有0-255种可能取值,256的84*84*4次幂表示4张图全部像素点的总共可能性取值。说明如果全部像素点都拿来做state,那Q-table就太大了。
可不可以借助神经网络来做?
改变每个像素点的值,转换为黑白图像:0代表黑色,255代表白色。黑色是可以走的区域,白色是不可以走的区域。每4帧图像为一个state 每个位置都有一个当前最优解,但是不是全局最优解呢?我们之前的解都是根据贪心的选择做最优的解,如果加上一些探索(比如10%可能性不走当前最优解,在最优解和其他解当中随机的选一个),尝试全局最优解。开发:每次按贪心的选择去走最好的一个方向。但是要让网络泛化能力更强,因为神经网络有时会过拟合,所以要加上一些探索,使得网络能够去发现一些新的东西。
例如贪心为10%,那么它有90%按正常去走,10%按随机去走。