强化学习PPO

Proximal Policy Optimization

强化学习就是不断撞墙而找到出口的学习过程。
强化学习在于如何克服没有标签的数据,从而如何去进行损失计算、梯度下降

state(相当于一个视频的截屏一帧)—方块nn—action

©️2020 CSDN 皮肤主题: 游动-白 设计师:上身试试 返回首页