《强化学习与最优控制》学习笔记(二):强化学习与最优控制的一些术语对比

写在前面的

上一篇的链接:

《强化学习与最优控制》学习笔记(一):确定性动态规划和随机性动态规划

这篇文章主要讲一下强化学习(RL)和最优控制的一些术语,其实稍微了解强化学习的小伙伴们在学习这本书的时候就会发现,RL和DP虽然优化的目标不一样(RL追寻奖励值的最大化,DP追求开销的最小化),但是无论是在结构上、控制系统上还是在方法上,使用的思想都可以一一对应,如下图所示,这只是我在网上找的一幅图片,本文会就书上1.4节的内容的进行更详细的说明。

1.4 强化学习与最优控制——相关术语

正如写在前面的所说,在基于RL的讨论(使用人工智能相关术语)和基于DP的讨论(使用最优控制相关术语)中,语言和重点存在重大差异。本书中使用的术语是DP和最优控制中的标准术语,为了防止读者对RL或最优控制术语感到困惑,本书提供了RL中常用的选定术语及其最优控制对应术语的列表。

(a) Agent(智能体) = Decision maker or controller(决策者或控制器,输出决策或控制的模型).

(b) Action(动作) = Decision or control(决策或控制).

(c) Environment(环境) = System(系统).

(d) Reward of a stage (阶段奖励) = (反义) Cost of a stage (阶段花销).

(e) State value (状态值,在这个状态下开始能得到的奖励)= (反义) Cost starting from a state (在这个状态下开始花的开销).

(f) Value (or reward, or state-value) function (价值函数) = (反义) Cost function (成本函数).

(g) Maximizing the value function (最大化价值函数) = Minimizing the cost function (最小化成本函数).

(h) Action (or state-action) value (动作或状态-动作值)= Q-factor (or Q-value) of a state-control pair (Q-value is also used often in RL.)(状态-控制对的Q因子或Q值).

(i) Planning(规划) = Solving a DP problem with a known mathematical model(用已知的数学模型解DP问题,就是知道系统的动态特性,在确定性系统中就是f_k(x_k,u_k)已知).

(j) Learning(学习) = Solving a DP problem without using an explicit mathematical model.(不需要显式的数学模型来解DP问题,在model-free强化学习中其实经常通过采样大量与环境交互的数据来近似系统的动态特性).

(k) Self-learning (or self-play in the context of games)(自学习) = Solving a DP problem using some form of policy iteration.(用某种策略迭代的形式求解DP问题,在强化学习中就是通过策略评估和策略提升来找到最优的策略)

(l) Deep reinforcement learning(深度强化学习) = Approximate DP using value and/or policy approximation with deep neural networks(就是用神经网络来近似DP问题).

(m) Prediction (预测)= Policy evaluation(策略评估).

(n) Generalized policy iteration (广义策略迭代)= Optimistic policy iteration(最优策略迭代).

(o) State abstraction (状态简化)= Aggregation(聚集,个人理解就是将相似的某些状态都当成相同的状态).

(p) Learning a model (学习模型) = System identification(系统识别,就是找系统的动态特性).

(q) Episodic task or episode = Finite-step system trajectory (就是从起始状态到最后状态(有限时间步的系统)的一段轨迹).

(r) Continuing task = Infinite-step system trajectory (就是从起始状态到最后状态(无限时间步的系统)的一段轨迹).

(s) Backup = Applying the DP operator at some state.

(t) Sweep = Applying the DP operator at all states.

(u) Greedy policy with respect to a cost function J = Minimizing policy in the DP expression defined by J.(贪婪策略,直接根据当前的J来选择策略,即不考虑未来的J

(v) Afterstate = Post-decision state.

(w)Experience replay = Reuse of samples in a simulation process.(在学习策略时我们会将与环境交互的一些数据放在经验池里,然后定期从中抽样出来学习)

有些术语会在后面的内容中讲到(我还没看到,所以不太清楚怎么解释,后续会更新一下)

写在后面的

下一章链接:

《强化学习与最优控制》学习笔记(三):强化学习中值空间近似和策略空间近似概述

  • 3
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
《白话强化学习与PyTorch》是一本介绍强化学习和PyTorch框架结合的书籍。这本书引用了多个参考内容来支持它的内容。首先,它引用了论文《Playing Atari with Deep Reinforcement Learning》中提到的卷积神经网络架构,该架构用于在Atari游戏中进行强化学习。其次,书中讨论了一些重要的概念和技术,包括迁移学习、生成对抗网络和强化学习。最后,书中第八章使用了四种算法(nips-DQN、nature-DQN、double-DQN、dueling DQN)来训练Gym中的Atari游戏—pong,即乒乓球游戏。这些算法的目标是控制球拍与电脑玩乒乓球,通过奖励机制进行训练。然而,书中提供的代码在处理环境和图像方面存在问题,并且探索率的更新速度较慢,导致训练结果较差。此外,书中关于Double DQN的伪代码和讲解也有错误。因此,读者需要注意这些问题并参考其他资料来获得更准确的信息。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* *3* [《白话强化学习与PyTorch》学习笔记---第八章](https://blog.csdn.net/cat_ziyan/article/details/101712107)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 50%"] - *2* [《白话强化学习与PyTorch》第1章 强化学习是什么----读书笔记](https://blog.csdn.net/zhang_xiaomeng/article/details/120113433)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 50%"] [ .reference_list ]

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

向南而行灬

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值