强化学习
魏小侠
简单的一个学生
展开
-
51cto强化学习(1)马尔可夫与贝尔曼方程学习笔记
马尔可夫决策的要求: 1,能够检测到理想状态:比如我们想让强化学习算法来实现走迷宫,最后这个迷宫一定是可以走出的,倘若迷宫没有出口便不可以套用马尔可夫。 2,可以多次尝试:依然使用走迷宫的例子,我们可以在走迷宫失败的时候进行多次尝试,而不是失败以后就停止。 3,系统的下个状态只和当前状态信息有关,而和之前的更早的状态无关,在决策的过程中还和当前采取的动作有关:马尔可夫的条件是,下一个状态...原创 2018-10-29 17:12:01 · 1552 阅读 · 0 评论 -
51cto强化学习(2)Q—learning学习笔记
我们假设一个场景,一间房子,分为0,1,2,3,4五个屋子,5号所代表的是屋子以外。此时此刻,一个智能体从2号屋子开始走,目标是5号室外。我们根据左图的信息,抽象出右图的路线图。 我们为这个问题设计奖励函数的值,奖励函数值为0的时候表示两点之间可以到达。由于最终的目标是5号室外,所以我们将1——5,4——5,5——5这三段的奖励函数设置为100。 我们将这段抽象为一个矩阵,纵向表示...原创 2018-10-30 00:07:40 · 363 阅读 · 0 评论