![](https://img-blog.csdnimg.cn/20201014180756919.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
强化学习
文章平均质量分 92
Flower_For_Algernon
这个作者很懒,什么都没留下…
展开
-
【统计强化学习】状态抽象
本系列文章主要参考UIUC姜楠老师开设的cs542文章目录精确抽象近似抽象根据上一章得到的界限,算法训练需要的样本数和状态空间大小呈多项式关系。对于某些状态空间很大的任务,一个行之有效的方法则是智能体能够利用先验知识从已学习到一个 状态泛化到另一个状态。而最简单的泛化方法就是状态抽象(state abstraction / state aggregation / state compression)。状态抽象是一个映射 ϕ\phiϕ,能将原始状态空间 S\mathcal{S}S 映射到特定的有限的抽象状原创 2022-06-20 14:07:47 · 469 阅读 · 0 评论 -
【统计强化学习】表格类型方法
本系列文章主要参考UIUC姜楠老师开设的cs542文章目录表格类型方法确定性等价方法分析本章主要介绍无模型下的表格类型方法,包括确定性等价(Certainty-equivalence)方法、以及常见的 Q-learning、SARSA 等基于值的方法。由于需要先估计环境模型再进行决策,所以本章还会基于确定性等价方法,分析估计过程中产生的误差。表格类型方法首先介绍确定性等价方法。该方法为 model-based 方法,首先需要从现有数据中估计 MDP 模型,然后在假设模型为真的情况下进行策略优化。具原创 2022-06-20 14:07:33 · 247 阅读 · 0 评论 -
【统计强化学习】集中不等式
本系列文章主要参考UIUC姜楠老师开设的cs542文章目录霍夫丁不等式Multi-Armed Bandits有监督学习的通用界限本章介绍集中不等式(Concentration inequality)。大数定理表明当独立同分布的样本很多时,其统计量会趋于其真实的统计量。而集中不等式则更定量化地描述了样本统计量与真实值之间的 bound,在算法收敛性分析过程中非常有用。这里主要介绍霍夫丁不等式(Hoeffding’s Inequality)及其应用。霍夫丁不等式能够刻画算法的输出在多大概率的意义下可以收敛到原创 2022-06-20 14:07:17 · 715 阅读 · 0 评论 -
【统计强化学习】MDP上的规划
本系列文章主要参考UIUC姜楠老师开设的cs542文章目录策略迭代值迭代线性规划规划(Planning)问题是基于给定的已知的 MDP M=(S,A,P,R,γ)M=(\mathcal{S}, \mathcal{A}, P, R, \gamma)M=(S,A,P,R,γ),计算最优策略 πM∗\pi_M^*πM∗,这里讨论 Q∗Q^*Q∗ 的计算。本章将介绍用来求解规划问题的策略迭代算法、值迭代算法、以及线性规划算法。策略迭代策略迭代算法为从任意初始策略 π0\pi_0π0 开始,不断重复下述步原创 2022-06-20 14:07:00 · 301 阅读 · 0 评论 -
【统计强化学习】马尔科夫决策过程
本系列文章主要参考UIUC姜楠老师开设的cs542文章目录马尔科夫决策过程与环境交互策略和价值函数贝尔曼方程贝尔曼最优方程贝尔曼算子本章将介绍强化学习涉及到的相关基础概念。马尔科夫决策过程状态空间 S\mathcal{S}S。只考虑有限状态空间;动作空间 A\mathcal{A}A。只考虑有限动作空间;转移函数 P:S×A→Δ(S)P : \mathcal{S} \times \mathcal{A} \rightarrow \Delta(\mathcal{S})P:S×A→Δ(S)。其中 Δ(原创 2022-06-20 14:06:44 · 252 阅读 · 0 评论