强化学习:(二)价值学习

valued-based learnning with Deep Q-Network (DQN)

目标:使reward最大化

a的选择:

1)如果已经知道了 Q ∗ ( s , a ) Q^*(s,a) Q(s,a) ,那么最好的 a ∗ = a r g m a x Q ∗ ( s , a ) a^*=\rm{argmax}Q^*(s,a) a=argmaxQ(s,a), 也就是使得平均回报值最大的a

2)其实我们不知道 Q ∗ ( s , a ) Q^*(s,a) Q(s,a) ,我们需要把他学习出来,比如用Deep Q-Network (DQN)。基本思路:用一个神经网络 Q ( s , a ; w ) Q(s,a;w) Q(s,a;w) 来近似出 Q ∗ ( s , a ) Q^*(s,a) Q(s,a) ,其中w是参数,s为输入,输出为一系列打分值,不断提高打分值的合理性,以此优化网络。

在这里插入图片描述

一、TD算法

如何训练DQN?TD算法(temporal difference learning,瞬时差分法)最常用

先来看一个例子。一般的参数更新方法:比如我想知道从NYC到atlanta要多久,我先估计是1000min,然后实际开车去一次,测得860min,最后更新估计值。具体的表达式如下:

估计: q = Q ( w ) q=Q(w) q=Q(w)

真实值: y y y

loss: L = 1 2 ( q − y ) 2 L=\frac{1}{2}(q-y)^2 L=21(qy)2

gradient:
在这里插入图片描述

gradient descent(梯度下降):
在这里插入图片描述
其中 α 称为学习率

缺点:需要完成整个旅途才能对模型做一次更新

利用半路上的数据进行w的优化:先估计是1000min,然后从NYC开到DC,发现用了300min,此时重新估计剩余路程的时间为600min,则从NYC到atlanta的估计为300+600=900,这个900称为TD target,它比原来的1000更准,用y表示(这里y不再是真实值了,因为包含了一段估计,应该理解为“充分利用已知信息得到的最好的值”)。(越接近亚特兰大,TD target越准)

TD error: Q ( w ) − y Q(w)-y Q(w)y,注意这不是估计值与真实值的差,而是第一次估计和第二次估计的差

loss: L = 1 2 ( Q ( w ) − y ) 2 L=\frac{1}{2}(Q(w)-y)^2 L=21(Q(w)y)2

gradient:
在这里插入图片描述

gradient descent(梯度下降):
在这里插入图片描述
在这里插入图片描述

TD算法的目标就是让TD error趋于0(也就是前一次估计和后一次估计一样,说明估计值不能再好了)

TD算法的使用条件:
在这里插入图片描述

二、在DRL中使用TD算法

上面的式子是怎么来的呢?先看 U t U_t Ut 的动态:

在这里插入图片描述

而Q是对U的期望,因此:

在这里插入图片描述

它的形式和TD算法的迭代是相同的

用TD算法训练DQN(更新其参数的过程):

在这里插入图片描述

三、参考资料

深度强化学习(全)

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 5
    评论
### 回答1: 《强化学习版中文版pdf》是一本探讨强化学习的书籍,作者是Richard S. Sutton和Andrew G. Barto。本书被广泛认为是强化学习领域的经典之作,是该领域的权威教材之一。 本书主要讨论了强化学习中的基础知识、标准强化学习问题以及近年来的实证研究结果等方面。它包含了很多实用算法和工具,如Q-learning和TD学习等,同时也提出了很多问题,如函数逼近与广义策略估计、探索与利用平衡、样本复杂度和近似算法等。本书以生动的语言和丰富的图像为基础,致力于帮助读者理解和学习强化学习的基本理论、算法和应用。 除此之外,《强化学习版中文版pdf》还具有一定的实用价值。例如,在机器学习人工智能等领域,应用强化学习可以帮助我们解决实际问题。在这些领域中,技术人员有必要深入了解强化学习的相关知识,以便为企业提供更加有效的解决方案,提高产品的性能和质量。 总的来说,《强化学习版中文版pdf》是一本极具价值的书籍。它不仅具有深入的理论知识,还提供了一系列强化学习算法和实现工具。在这里,我强烈建议所有与强化学习相关领域的人都应该认真阅读并掌握本书,以便掌握强化学习的核心理论和算法,提升自己的技术实力并发挥自己的创造力和创新能力。 ### 回答2: 《强化学习版》中文版 pdf 是指由 Richard S. Sutton 和 Andrew G. Barto 合著的强化学习领域的重要著作的中文版电子书。这本书系统地介绍了强化学习的理论基础和算法实现,深入剖析了强化学习人工智能领域中的应用和潜在机会。它是一本权威的、广泛使用的参考书,已经成为强化学习领域学术界和工业界研究人员的必读之作。 本书主要内容包括:强化学习的定义、其应用领域和特点;基于值函数的强化学习方法、基于策略强化学习方法以及其它基础算法;深度强化学习、多智能体强化学习等高级技术和算法;强化学习在机器学习、控制论、语言处理、图像识别等领域的应用。此外,本书还有充分的例子、图表和代码,方便读者理解和实践强化学习。 《强化学习版》中文版 pdf 的出版对于提高国内强化学习研究水平、扩大应用领域具有重要意义。读者不仅可以从中了解到强化学习的实际应用,还可以学到使用强化学习算法的技巧和方法。对于研究人员,该书是进一步深化强化学习研究的必备工具,对于学生和广大读者,本书不失为学习和了解强化学习的一份难得的资料。 ### 回答3: 强化学习版中文版pdf是Richard S. Sutton和Andrew G. Barto两位著名人工智能专家合作编写的一本权威教材。这本书全面深入地介绍了强化学习的理论和实践,对于人工智能领域的从业者、研究者、学生来说,都是一本必备的参考书。 在本书中,作者系统地介绍了强化学习的基本概念、算法和应用。首先,作者深入阐述了强化学习的定义、目标和应用领域,以及它与其他机器学习方法的区别。然后,作者介绍了强化学习的基本元素、马尔科夫决策过程、值函数、策略、模型和探索与利用等重要概念。此外,作者还介绍了各种强化学习算法,如蒙特卡洛算法、时序差分学习算法和Q学习算法等,并对它们进行详细的解释和比较。最后,作者介绍了强化学习在实际问题中的应用,如自主车辆、机器人控制、游戏等,展示了强化学习的实际效果和前景。 总的来说,强化学习版中文版pdf是一本全面、系统和深入的权威教材。它深入浅出地介绍了强化学习的相关概念和算法,便于初学者入门,同时也提供了相关研究的前沿信息,有助于深入研究。它对于人工智能领域的从业者、研究者、学生都是一本必备的参考书。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

百把人

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值