强化学习读书笔记(一)

强化学习读书笔记

机器学习分类

  • 监督学习
  • 非监督学习
  • 强化学习

强化学习的复杂性

  • 非独立同分布数据 观察结果不会告诉如何选择动作才能改善结果
  • 探索与利用两难问题 利用已有知识还是探索新环境
  • 奖励的严重延迟 某个关键动作的因果判断

强化学习的形式

奖励

从环境中周期性的获得的一个标量。通常设置为每固定时间戳一次每与环境交互一次,也有一生一次奖励,除最后一次外,所有奖励都是0。
奖励是RL最核心的,智能体获得的奖励应该正向或反向地强化它的行为。
奖励是局部的,它反映了智能体最近的行为有多成功,而不是从开始到现在累计的行为。

智能体

智能体是通过执行确定的动作、进行观察、获得最终的奖励来和环境交互的人或物。

环境

环境是智能体外部的一切。智能体和环境的交互仅限于奖励(从环境中获得)、动作(由智能体执行并馈入环境)以及观察(智能体从环境中获得的除奖励之外的一些信息)。

动作

动作是智能体在环境中可以做的事情。分为离散动作连续动作

观察

对环境的观察是智能体的第二个信息渠道(第一个为奖励)。观察是环境为智能体提供的信息,能说明智能体周围的情况。

强化学习的理论基础

马尔可夫决策过程

  • 马尔可夫过程(MP) 是一个具备马尔可夫性质的离散随机过程。
    马尔可夫过程基于马尔科夫链的假设,下一状态 S t + 1 S_{t+1} St+1只取决于当前状态 S t S_t St
  • 马尔可夫奖励过程(MRP) 把马尔可夫过程从 < S , P > <S,P> <S,P>拓展到 < S , P , R , γ > <S,P,R,\gamma> <S,P,R,γ>,其中R和 γ \gamma γ分别表示奖励函数奖励折扣因子
  • 马尔可夫决策过程(MDP) 加入了有限的动作集合 A \mathcal{A} A,变成 < S , A , P , R , γ > <S,\mathcal{A},P,R,\gamma> <S,A,P,R,γ>

强化学习方法

动态规划
  • 策略迭代(Policy Iteration) 的目的在于直接操控策略。
    过程总结为:给定任意一个策略 π \pi π,对于每一次迭代 t t t中的每一个状态 s s s,我们首先评估 v π t ( s ) v_{\pi t}(s) vπt(s),然后找到一个更好的策略 π t + 1 \pi_{t+1} πt+1。我们把前一个阶段称为策略评估,把后一个阶段称为策略提升。此外,用术语泛化策略迭代来指代一般的策略评估和策略提升交互过程。

  • 价值迭代 的理论基础是最优性原则
    当且仅当 π \pi π取得了可以到达的任何后续状态上的最优价值时, π \pi π时一个状态上的最优策略。因此如果我们知道子问题 v ∗ ( s ′ ) v_*(s') v(s)的解,就可以通过一步完全回溯找到任意一个初始状态 s s s的解:
    v ∗ ( s ) = max ⁡ a ∈ A R ( s , a ) + γ ∑ s ′ ∈ S P ( s ′ ∣ s , a ) v ∗ ( s ′ ) v_*(s) = \max_{a\in \mathcal{A}}R(s,a)+\gamma \sum_{s'\in \mathcal{S}}{P(s'|s,a)v_*(s')} v(s)=aAmaxR(s,a)+γsSP(ss,a)v(s)
    价值迭代的过程是将上面的更新过程从最终状态开始,一个一个状态接连向前进行。

蒙特卡洛

蒙特卡洛是一类随机算法的特性的概括,其算法的核心思想是多次实验,用所有实验样本的平均值代表理论值,例如值函数。当实验次数趋于无穷时,就会收敛到理论值。

时间差分

时间差分结合了动态规划和蒙特卡洛方法的思想,结合了自举法(Bootstrapping)和无需了解全部环境信息的优点。正如其名,利用差异值进行学习,即目标值和估计值在不同时间步上的差异。

总结

其他可参考博客动态规划和蒙特卡洛时间差分

三者都是现代强化学习中的核心算法,都可以被运用与策略评估和策略提升。它们都涉及泛化策略迭代(GPI),主要区别在于策略评估的过程,动态规划和时间差分都使用了自举法(Bootstrapping),而蒙特卡洛没有。动态规划需要整个环境模型的所有信息,但蒙特卡洛和时间差分不需要。
其学习目标也不同:
v π ( s ) = E π [ G t ∣ S t = s ] = E π [ R t + 1 + γ G t + 1 ∣ S t = s ] = E π [ R t + 1 + γ v π ( S t + 1 ) ∣ S t = s ] \begin{aligned} v_\pi(s) & = \mathbb{E}_\pi[G_t|S_t=s] \\ &= \mathbb{E}_\pi[R_{t+1}+\gamma G_{t+1}|S_t=s]\\ &= \mathbb{E}_\pi[R_{t+1}+\gamma v_\pi(S_t+1)|S_t=s] \end{aligned} vπ(s)=Eπ[GtSt=s]=Eπ[Rt+1+γGt+1St=s]=Eπ[Rt+1+γvπ(St+1)St=s]
其中公式依次是是蒙特卡洛、时间差分和动态规划。

强化学习算法分类

强化学习算法分类
之后将从多个角度对强化学习算法进行分类,其中包括

  • 基于模型(Model-Based)和无模型(Model-Free)的学习方法
  • 基于价值(Value-Based)和基于策略(Policy-Based)的学习方法
  • 蒙特卡洛(Monte Carlo)和时间差分(Temporal-Difference)学习方法
  • 在线策略(On-Policy)和离线策略(Off-Policy)学习方法

《深度强化学习实践》— [俄]马克西姆i•拉潘 著 林然 王薇 译
《深度强化学习基础、研究与应用》 — 董豪 丁子涵 等著

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
《白话强化学习与PyTorch》是一本介绍强化学习和PyTorch框架结合的书籍。这本书引用了多个参考内容来支持它的内容。首先,它引用了论文《Playing Atari with Deep Reinforcement Learning》中提到的卷积神经网络架构,该架构用于在Atari游戏中进行强化学习。其次,书中讨论了一些重要的概念和技术,包括迁移学习、生成对抗网络和强化学习。最后,书中第八章使用了四种算法(nips-DQN、nature-DQN、double-DQN、dueling DQN)来训练Gym中的Atari游戏—pong,即乒乓球游戏。这些算法的目标是控制球拍与电脑玩乒乓球,通过奖励机制进行训练。然而,书中提供的代码在处理环境和图像方面存在问题,并且探索率的更新速度较慢,导致训练结果较差。此外,书中关于Double DQN的伪代码和讲解也有错误。因此,读者需要注意这些问题并参考其他资料来获得更准确的信息。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* *3* [《白话强化学习与PyTorch》学习笔记---第八章](https://blog.csdn.net/cat_ziyan/article/details/101712107)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 50%"] - *2* [《白话强化学习与PyTorch》第1章 强化学习是什么----读书笔记](https://blog.csdn.net/zhang_xiaomeng/article/details/120113433)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 50%"] [ .reference_list ]

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

無垠

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值