7天的实战很快就过去了,在调参调到怀疑人生时,“标准答案”却出奇的简单,另外每次训练时间都非常长,要是有加快训练的方法就好了。最后有一个终极复现可以自由发挥,这就来实现曾经想玩的flappy bird。 这里是目录 原理 基本概念 Q学习 环境 实现过程 模型选取 图像预处理 调试与优化 总结与展望 原理 基本概念 强化学习是一种在与环境交互过程中学习的方法。 通过动作施加影响 动作的收益