强化学习 -- Q-Learning小实例手写入门代码
前言
本文针对下面这篇文章进行代码复现,文章写的很棒,但是算法最关键的更新步骤貌似有问题,本人使用原版公式。
http://www.cnblogs.com/coshaho/p/7475988.html
正文
使用矩阵模拟了环境以及奖励,可以先尝试读懂原文章。本文是针对文章做的复现,我的学习经历告诉我,要啃很多遍概念才可以将知识转化为实践。所以对该文章以及本文示例代码有困惑请务必多看教学视频理解概念。
本人也只是刚刚入门强化学习,对一些概念理解感觉较为困难,故有不足之处一定要评论私聊告知我。
import
原创
2022-02-18 20:27:43 ·
875 阅读 ·
0 评论