《强化学习》第二版 阅读随笔
-Willing-
23岁,我想做点有意义的事。
展开
-
《强化学习》第二版 阅读随笔4
第四章——动态规划(Dynamic Programming) 动态规划(Dynamic Programming,DP)是一类求取最优化策略的算法。由于对模型环境假设的理想化以及巨大的计算开销致使在强化学习领域的应用实分有限。但动态规划对于以后其他强化学习算法的理解是很有帮助的,其他强化学习算法都在尝试以更少的计算开销和更低的环境要求来达到与动态规划相同的效果。 动态规划和强化学习共同的思想是使用价值函数(value function)来寻找最优化的策略。正如在第三章中我们讨论的那样,只要我们知道符合贝尔曼方原创 2020-05-31 22:32:00 · 534 阅读 · 0 评论 -
《强化学习》第二版 阅读随笔3
第三章 有限马尔可夫决策过程(finite Markov decision processes) MDPs involve delayed reward and the need to tradeoff immediate and delayed reward. 马尔可夫决策与多臂老虎机问题相比,两者都需要在不同情况下选择不同的行为模式(action),但马尔可夫决策过程需要在既得利益和长远利益之间进行权衡。也就是决策之间不再是状态独立的,而是相互关联的(state-dependent)。 3.1 强化学习原创 2020-05-30 17:05:18 · 843 阅读 · 0 评论 -
《强化学习》第二版 阅读随笔2
第二章——多臂老虎机(Multi-armed Bandits) The most important feature distinguishing reinforcement learning from other types of learning is that it uses training information that evaluates the actions taken rather than instructs by giving correct actions. 使强化学习与其他深度原创 2020-05-28 22:54:33 · 369 阅读 · 0 评论 -
《强化学习》第二版 阅读随笔1
开篇第一页,是作者的致谢 In memory of A. Harry Klopf 前言部分介绍了作者如何走上强化学习之路,前言的机翻可以参考下面的文章。 详情参考 第一章——引言 问题1:什么是强化学习 Learning from interaction is a foundational idea underlying nearly all theories of learning and intelligence. 像婴儿一样在与环境互动和实践中学习。 The approach we explore,原创 2020-05-16 12:01:21 · 658 阅读 · 0 评论