TD Learning

Temporal difference learning,暂时翻译成时间差学习,是一种基于动态规划(DP)和蒙特卡罗方法(Monte Carlo method)的强化学习方法。

一个简单的例子
决策过程从S点出发,有一定概率到达A1或者A2,再次决策后才能获得收益。所以对于第一步决策,我们认为获得收益与这一步决策之间还隔了1次决策,因此我们规定这次决策的折扣速率(λ)为1。

  1. 在时间差学习中,决策被分为多步决策,但是收益过程是一次性的,所以前几步的决策的收益是未知的
    因此需要发现状态转移方程以确定每一个状态的权值
  2. 比如说,根据样例模型,从S点开始决策,第一步可以转移到状态A1或者状态A2,但是此时收益是未知的,第二步可以从A1出发转移到B1或者B2,也可以从A2出发转移到B3或者B4
  3. B阶段的决策完成之后才能获得收益,但是在A阶段应该如何决策才能使得收益最优化呢?

运用动态规划的思想,根据后一步的收益来确定当前步的收益。将最终收益合理的分担给每一次决策。

  • 为了方便,我们假装是等概率状态转移p(B1) = p(B2) = p(B3) = p(B4) = 1/2

    1. B1和B2的收益是已知的,我们可以设它们分别为 dp(B1) 、dp(B2),因此,我们可以得到A1的预期收益dp(A1) = dp(B1)*p(B1) + dp(B2)*p(B2)
    2. p(B1)是从A1出发进入B1的概率,p(B2)同理 同理可知,dp(A2)=dp(B3)*p(B3)+dp(B4)*p(B4)
    3. 可以得出dp(A1) = -1 * 0.5 + 1 * 0.5 = 0
      同理可得dp(A2) = -2 * 0.5 + 4 * 0.5 = 1

这样我们就从局部最优解向前推进得到了大一点的局部最优解,最终得到了全局最优解。当然这只是最简化的不带概率的模型,真实的强化学习是涉及到概率的。

但是,如何得到最初的dp(B1) 、dp(B2)、dp(B3)、dp(B4)呢?
就需要用到蒙特卡罗模拟了

background:很久以前,有一个赌场在蒙特卡罗,然后赌场有许许多多的老虎机,赌徒需要花费最小的money找到老虎机的赔率。如果是为了寻找赔率,最暴力的方式是每台老虎机投币1000枚以找到每台老虎机的赔率,但是这样做花费的代价太高了。蒙特卡罗方法基于试验次数越大频率就越接近概率的原理,先对每台机器试探少数几次找出赔率最大的,再次试探赔率最大的,如果当前机器赔率下降就继续试探赔率最大的
ex:有一个不规则的平面S,要求他的面积。构造一大堆小球,随机撞击S,保证小球不会重叠,最后小球的个数就是S的面积,这也是蒙特卡罗方法

因此,用最少的试探次数确定某一最终状态收益的方法就是蒙特卡罗方法

参考

http://www.cnblogs.com/jerrylead/archive/2011/05/13/2045309.html
多机器人系统强化学习研究综述 马磊,张文旭,戴朝华

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: 《强化学习导论》是由Richard S. Sutton和Andrew G. Barto合著的一本经典教材。该书详细介绍了强化学习的基本概念、算法和应用。 强化学习是一种机器学习方法,通过让智能体与环境进行交互学习来解决决策问题。与其他机器学习方法不同,强化学习强调在面对动态环境时基于反馈机制进行学习和优化。智能体通过与环境的交互,通过试错学习来获取最佳行为策略。 该书首先介绍了强化学习的基本概念,包括马尔可夫决策过程、值函数、策略和模型等。然后详细介绍了著名的强化学习算法,如蒙特卡洛方法、时序差分学习、动态规划等。这些算法通过不同的方式来优化智能体的策略或值函数,以实现最优决策。 此外,书中还对探索与利用、函数近似、策略梯度和深度强化学习等重要主题进行了深入讨论。这些主题对了解和解决实际应用中的强化学习问题非常重要。 《强化学习导论》还涵盖了一些实际应用,如机器学习、人工智能领域的自适应控制、机器人学、游戏和金融等。这些实际应用案例有助于读者将强化学习的概念和算法应用于实际问题,并了解其在不同领域的应用情况。 总的来说,《强化学习导论》是学习和了解强化学习领域必不可少的一本书。它详细介绍了强化学习的基本概念、算法和应用,并通过实际案例帮助读者更好地理解和应用强化学习。无论是对学术研究者还是工程师来说,这本书都是一份极具价值的参考资料。 ### 回答2: 《强化学习简介》是Richard S. Sutton和Andrew G. Barto编写的一本经典教材,旨在介绍强化学习的基本理论和方法。本书详细阐述了强化学习中的关键概念,包括马尔可夫决策过程(MDP),值函数、动作值函数和策略等。 在《强化学习简介》中,作者首先介绍了强化学习的背景和定义,并提出了马尔可夫决策过程作为强化学习问题建模的基础。马尔可夫决策过程包括状态、动作、奖励和转移概率这四个主要要素,通过定义系统状态空间、动作空间、奖励函数和状态转移概率函数,可以将强化学习问题转化为一个数学模型。 书中还介绍了强化学习的两种核心学习方法:值函数学习和策略搜索。值函数学习通过估计状态或状态-动作对的值函数,来指导智能体在不同状态下采取最优动作,并通过迭代更新值函数来提高策略的质量。策略搜索则是直接搜索和优化策略本身,通过改进策略来达到最优操作。 此外,本书还介绍了重要的强化学习算法,包括Temporal Difference LearningTD-Learning)、Q-Learning和策略梯度方法等。这些算法通过巧妙地利用奖励信号和经验数据,来指导智能体学习最佳策略。 《强化学习简介》不仅深入浅出地介绍了强化学习的基本概念和方法,还提供了大量的实例和案例分析,帮助读者更好地理解和应用强化学习。无论是对强化学习感兴趣的研究人员、学生,还是从业者,这本书都是一本不可或缺的参考读物。 ### 回答3: 《强化学习导论》是一本介绍强化学习的重要著作。该书由Richard S. Sutton和Andrew G. Barto合著,共分为十章,全面介绍了强化学习的概念、方法和应用。 在书中,作者首先介绍了强化学习的基本概念,包括马尔科夫决策过程(MDP),状态、动作和奖励的定义以及强化学习中的基本问题,如策略选择和价值函数估计。 接下来,书中介绍了各种强化学习算法,包括值迭代、策略迭代和蒙特卡洛方法等。这些算法分别用于解决不同类型的强化学习问题,如预测、控制和学习价值函数。 此外,书中还介绍了基于模型的强化学习方法,如动态规划和强化学习中的基于模型的规划。这些方法利用对环境的模型进行规划,以改进策略和价值函数的学习效果。 在进一步讨论强化学习的高级主题时,作者介绍了函数逼近和深度强化学习。这些技术允许在复杂环境中处理高维状态和动作空间,并在估计价值函数和优化策略方面取得更好的性能。 最后,书中还包括了对强化学习的应用领域的概述,包括游戏、机器人和交通等。这些应用展示了强化学习在解决实际问题中的潜力和成功案例。 总的来说,《强化学习导论》全面而深入地介绍了强化学习的基本原理、算法和应用。它适合作为学习和研究强化学习的入门材料,并为读者提供了理解和掌握强化学习的基础。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值