![](https://img-blog.csdnimg.cn/20201014180756724.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
强化学习
文章平均质量分 73
qjf42
这个作者很懒,什么都没留下…
展开
-
《Reinforcement Learning》 读书笔记 2:多臂老虎机(Multi-armed Bandits)
《Reinforcement Learning: An Introduction》 读书笔记 - 目录Reinforcement Learning 和 Supervised Learning 的区别 evaluate vs instruct也就是说,RL的对于每一个action的效果不是非黑即白的,而是在每一次的action之后都可能不一样的后果(feedback, rewar...原创 2018-03-22 16:39:56 · 5738 阅读 · 0 评论 -
《Reinforcement Learning》 读书笔记 3:有限马尔科夫决策过程(Finite MDP)
《Reinforcement Learning: An Introduction》 读书笔记 - 目录Agent-Environment Interfaceagent learner and decision makerenvironment 与agent交互,包括所有agent之外的东西environment’s state St∈SSt∈SS_t \in \mathcal...原创 2018-03-22 17:27:11 · 1155 阅读 · 0 评论 -
《Reinforcement Learning》 读书笔记 4:动态规划(Dynamic Programing)
《Reinforcement Learning: An Introduction》 读书笔记 - 目录为了求解价值函数,或更一步得到最优策略,可以解Bellman方程组,但是当状态集太大时,求解的复杂度太高,所以这一章主要介绍了一些迭代的方式来逼近精确解,在不损失精度的情况下,大幅减少复杂度(对state-value function来说,一般是O(|S|k)O(|S|k)O(|\mathca...原创 2018-03-22 17:46:13 · 1425 阅读 · 0 评论 -
《Reinforcement Learning》 读书笔记 5:蒙特卡洛(Monte Carlo Methods)
《Reinforcement Learning: An Introduction》 读书笔记 - 目录问题前面两章都假设我们已知MDP的分布p(s′,r|s,a)p(s′,r|s,a)p(s', r | s, a)(model),但有时这一点难以做到(第2章的多臂老虎机问题是一个特殊的例子),或者说这种Markov假设可能是不合理的,那么我们只能从真实/模拟环境中去获取这些知识PS:...原创 2018-03-22 17:59:38 · 1114 阅读 · 0 评论 -
《Reinforcement Learning: An Introduction》 读书笔记 - 目录
这一系列笔记是基于Richard S. Sutton的《Reinforcement Learning: An Introduction》第二版 因为这本书在出版之前,作者就在官网上发布了几次草稿版,不同时间发布的版本之间的排版有所差异(尤其是2017年和2018年的之间) 本系列基于2018年的几个版本,所以如果文中部分内容所指明的地方和读者看到的不一致,敬请谅解~第2...原创 2018-03-22 18:34:01 · 4875 阅读 · 0 评论 -
《Reinforcement Learning》 读书笔记 6:时序差分学习(TD-Learning)
《Reinforcement Learning: An Introduction》 读书笔记 - 目录先来看一个例子 每天上班的路程,都是可以看作是一系列子过程的组合,如:走路去地铁站=>地铁1=>地铁2=>公交,总时长是这些子过程之和。每天我们依赖之前的经验,估计当天的时长,并更新我们的经验。 那么如何做出更好的估计呢?如何更快地积累有效的经验? 尤其是在一个没有...原创 2018-04-29 18:55:57 · 9218 阅读 · 0 评论