强化学习
文章平均质量分 56
Charlie_1541
一个碎碎念爱好者的小号
展开
-
强化学习 | 课堂笔记 | 第三课 MD的便利性,随机逼近方法
(指的是解决“四 ADP可以使用的条件”中的三个问题)原创 2023-03-07 13:55:17 · 175 阅读 · 0 评论 -
强化学习 | 蘑菇书阅读笔记 | 第七章 DQN(进阶技巧)
Q^值总是被高估。下图中,假设横坐标是a,纵坐标是Q^,蓝色是实际值,绿色是被高估的值。我们总倾向于选择《Q^值被高估的动作a》计算目标函数,因此目标函数往往被高估。原创 2023-03-05 09:34:36 · 396 阅读 · 0 评论 -
强化学习 | 蘑菇书阅读笔记 | 第六章 DQN(基础概念)
传统的强化学习用表格存储V或Q,但是如果状态数无限,就需要。其中s,a为s和a的向量表示,而Qφ(s,a)为一个函数,通常是一个网络,输出实数。它被称为。原创 2023-03-04 21:23:27 · 227 阅读 · 0 评论 -
强化学习 | 课堂笔记 | 第二课 DPP/近似DPP/Q函数
Q:贝尔曼方程和贝尔曼最优方程都可以用迭代的方法求解。解贝尔曼方程是为了评估一个给定的策略,评估完之后可以去优化这个策略,这是策略迭代的方法。解贝尔曼最优方程是为了找到一个最优的价值函数,进而找到最优的策略,是价值迭代的方法。总之,策略迭代使用贝尔曼方程,价值迭代使用贝尔曼最优方程。压缩映像原理:x=J(x)存在唯一不动点的充分条件是:||J(x)-J(y)||≤λ||x-y||, λ原创 2023-02-27 16:33:49 · 358 阅读 · 0 评论 -
强化学习 | 蘑菇书阅读笔记 | 第五章 近端策略优化(PPO)
如果我们能从p中采样,那么可以用MC来估计如果不能直接从p中采样,但是可以从q中采样,则可以用重要性估计:但需要注意,两者不能相距太远。因为虽然它们期望一样,方差却不一样。区别在第一项因此,重要性采样的一个缺点是:必须样本充足,否则可能引起巨大的问题。例如下图中,如果对p采样,f(x)的均值显然是负数。如果对q采样,样本很少的情况下,只会采样到f(x)>0的情况,那么估计的期望就是正数。但如果样本足够多,即使采到左边一两个点,也会因为权重很大而把估计值拉回到负数。原创 2023-02-27 09:04:55 · 228 阅读 · 0 评论 -
强化学习 | 蘑菇书阅读笔记 | 第四章 策略梯度
用pθ(τ)表示一个策略,其中θ是参数。我们希望找到最佳的τ,使得回报的期望最大。梯度不能求,但是我们可以将它转换一下写成期望的形式此时就可以用MC来估计这个期望。原创 2023-02-26 11:00:07 · 132 阅读 · 0 评论 -
强化学习 | 蘑菇书阅读笔记 | 第三章 表格型方法
策略最简单的是查找表(look up table),即表格型方法(tarbular method),如MC,Q-learning和sarsa。原创 2023-02-25 13:52:13 · 103 阅读 · 0 评论 -
强化学习 | 蘑菇书阅读笔记 | 第二章 马尔科夫决策过程
策略迭代和策略评估都是贝尔曼期望方程,因为策略评估是策略迭代的一部分。原创 2023-02-23 12:16:23 · 453 阅读 · 0 评论 -
强化学习 | 蘑菇书阅读笔记 | 第一章 强化学习基础
此外,演员-评论员算法同时使用策略和价值评估来做出决策。其中,智能体会根据策略做出动作,而价值函数会对做出的动作给出价值,这样可以在原有的策略梯度算法的基础上加速学习过程,取得更好的效果。是对状态的部分描述,可能会遗漏一些信息。环境可以分为完全可观测(马尔科夫决策过程)和部分可观测。优缺点:有模型可以缓解数据匮乏的问题,免模型泛化能力更强。区别:有模型智能体会对下一步环境和奖励进行预测。是对世界的完整描述,不会隐藏世界的信息。下图的Gt指的是t时刻开始的折扣回报。大部分的深度学习方法用的是免模型。原创 2023-02-22 09:49:21 · 356 阅读 · 0 评论 -
强化学习 | 强化学习基础
强化学习基本概念;Q-learning;Policy-based learning原创 2023-02-22 09:19:01 · 138 阅读 · 0 评论