如何让AI玩会贪食蛇,甚至比你厉害 概述 构建问题(强化学习求解的一般步骤) 环境 动作定义 状态定义 奖励设计 训练奖励值收敛图 采用第4种状态定义方法 初步训练效果 最终训练效果 模型泛化迁移能力 代码 概述 所用技术:强化学习(Deep Reinforcement Learning),属于一种无监督学习,利用奖励 r e w a r d reward rewar