AI人工智能
文章平均质量分 61
江盈月皓
编程爱好者,对各种技术保持兴趣和不懈的探索精神
展开
-
强化学习笔记(1)-找金币小游戏
使用gym实现的第一个强化学习的问题,简单来说就是一个找金币的问题。该网格世界一共8个状态,其中6和8是死亡区域,状态7是金币区域,机器人的初始位置为网格中的任意一个状态,机器人从初始状态出发寻找金币,机器人每探索一步,进入死亡区域或找到金币本次探索结束。 状态空间 S = { 1, 2, 3, 4, 5, 6, 7, 8},动作空间是 A = {上,下,左, 右}, 找到金币回报为1, 进...原创 2018-08-05 23:12:13 · 2160 阅读 · 1 评论 -
强化学习笔记(二)---- 策略迭代算法
强化学习有两种常见迭代训练算法:策略迭代算法和值迭代算法。本文中主要讲述策略迭代算法。先从一个简答的问题开始,下图为一个四方格子,每个位置的状态空间分别为{1, 2, 3, 4}, 其中 3 的位置是个陷阱, 4的位置有个金币。有一个机器人从状态1的位置开始寻找金币。落入陷阱的回报为-1,找到金币的回报为1,在其他位置间移动回报为0,可选的动作空间为{上,下,左,右}, 通过这个简单的问题,来...原创 2018-08-15 23:39:40 · 14575 阅读 · 6 评论 -
强化学习笔记(三)-----值迭代算法
强化学习有两种常见迭代训练算法:策略迭代算法和值迭代算法。在上一篇博客<<强化学习笔记(二)>>中已经详细描述了策略迭代算法,其实值迭代算法和策略迭代算法的基本思想是一致的,其最大的区别在于,策略迭代算法在进行策略改善的时候,使用的每个状态的值函数,是稳定的,在进行策略评估的时候,计算得到了当前策略的稳定值函数;而值迭代算法交替进行策略评估和策略改善的过程,并不是等到值函数...原创 2018-08-20 22:48:28 · 5610 阅读 · 0 评论 -
强化学习笔记(四)......基于时间差分的Sarsa强化学习方法
解决强化学习的训练问题有很多种方法,本节用时间差分方法Sarsa来对一个简单的迷宫问题进行求解。迷宫问题的地图简单描述如下。同策略的Sarsa方法更新动作值函数更新公式如下:简单的说明一下,就是通过概率模拟状态s的时候,选择执行动作a,到达了状态s’,再利用状态s’处的Q(s’,a’)来更新Q(s, a)的值,但是因为是模拟,所以不能直接用Q(s,a) = r + yQ(s’,...原创 2018-08-29 22:51:32 · 496 阅读 · 0 评论 -
强化学习笔记(五)......基于时间差分的Qlearning强化学习方法
解决强化学习的训练问题有很多种方法,本节用时间差分方法Qlearning算法来对一个简单的迷宫问题进行求解。迷宫问题的地图简单描述如下。异策略的Qlearning方法更新动作值函数更新公式如下:简单的说明一下,就是通过概率模拟状态s的时候,选择执行动作a,到达了状态s’,再利用状态s’处的最大动作值函数Q(s’,a’)来更新Q(s, a)的值,但是因为是模拟,所以不能直接用Q(...原创 2018-09-02 22:00:58 · 831 阅读 · 0 评论