强化学习
文章平均质量分 93
“Reinforcement Learning” Richard S.Sutton and Andrew G.Barto 学习笔记,相关案例代码
EasonZzzzzzz
这个作者很懒,什么都没留下…
展开
-
强化学习(六)时序差分
时序差分(TD)是强化学习的核心,其是蒙特卡罗(MC)和动态规划(DP)的结合。原创 2024-02-29 15:36:28 · 992 阅读 · 0 评论 -
强化学习(五)蒙特卡罗方法
首先考虑给定策略的状态价值函数的蒙特卡罗方法。一个状态的价值就是从该状态开始的期望收益(期望的未来折扣奖励之和),因此一个显而易见的方法是,多次访问该状态后对观察到的收益进行平均,当访问次数足够多时,平均值会收敛于期望收益值(即该状态的价值),这就是所有蒙特卡罗方法的基础。假设给定一组遵循策略π并包含状态s的经验序列,我们希望估计该策略下状态s的价值vπs,每个序列中,状态s的出现称为对s的访问,一个序列s可能被多次访问。与。原创 2024-02-28 18:52:08 · 902 阅读 · 0 评论 -
强化学习(四)动态规划——1
动态规划算法(DP):在马尔可夫决策过程(MDP)的完美环境模型下计算最优策略。但其在强化学习中实用性有限,其一是它是基于环境模型已知;其二是它的计算成本很大。但它在理论伤仍然很重要,其他的一些算法与动态规划算法(DP)十分相似,只是计算量小及没有假设环境模型已知。动态规划算法(DP)和一般的强化学习算法的关键思想都是基于价值函数对策略的搜索,如前所述,一旦我们找到满足贝尔曼最优方程的最优价值函数v∗或q∗,我们就可以很容易地获得最优策略。原创 2024-01-21 23:21:01 · 1375 阅读 · 0 评论 -
强化学习(三)有限马尔可夫决策过程
马尔科夫决策过程是通过与环境互动进行学习的直接框架,决策者称为,智能体之外的一切称为,它们不断交互,智能体选择动作,环境反馈给智能体新的状态和奖励。S0A0R1S1A1R2S2A2R3⋯其中,SA和R分别对应状态、动作和奖励。在有限马尔可夫决策过程中,SA和R的集合都具有有限数量的元素,在这种情况下,随机变量Rt和St可以被定义为离散概率分布,且仅依赖前一状态和动作,即ps′r∣sa≐。原创 2024-01-17 14:36:06 · 1051 阅读 · 0 评论 -
强化学习(二)多臂老虎机 “Multi-armed Bandits”——2
由之前的内容可知,某一个动作被选择n−1次后,该动作的价值估计值为Qn≐n−1R1R2⋯Rn−1很明显,随着时间的推移,内存和计算的需求逐渐增长,为此设计增量算法,已知Qn和第n次的奖励Rn,则这nQn1n1i1∑nRin1Rni1∑n−1Rin1Rnn−1n−11i1∑n−1Rin1。原创 2024-01-16 12:22:52 · 840 阅读 · 0 评论 -
强化学习(一)简介
强化学习这一概念在历史上来源于行为心理学,来描述生物为了的学习过程。人类学习的过程其实就是为达到某种目的不断地与环境进行互动试错,比如婴儿学习走路。强化学习算法探索了一种的计算方法。原创 2024-01-13 21:52:13 · 984 阅读 · 0 评论 -
强化学习(二)多臂老虎机 “Multi-armed Bandits”——1
将强化学习与机器学习、深度学习区分开的最重要的特征为:它通过训练中信息来评估所采取的动作,而不是给出正确的动作进行指导,这极大地促进了寻找更优动作的需求。原创 2024-01-15 09:58:28 · 1300 阅读 · 0 评论