Proximal Policy Optimization 强化学习就是不断撞墙而找到出口的学习过程。 强化学习在于如何克服没有标签的数据,从而如何去进行损失计算、梯度下降 state(相当于一个视频的截屏一帧)—方块nn—action