DRL策略梯度

DRL策略梯度

参考网址:https://datawhalechina.github.io/joyrl-book/#/ch9/main

作业:

1.基于价值和基于策略的算法各有什么优缺点?

基于价值(Value-based)和基于策略(Policy-based)是强化学习中两种常见的方法。以下是它们各自的优缺点:

(1)基于价值的算法:

优点:

1.收敛性较好:基于价值的方法通常更容易收敛到全局最优解,尤其在状态空间较小的情况下。
2.广泛适用:可以适用于离散和连续的状态和动作空间,包括处理高维状态空间的问题。

缺点:

1.难以处理连续动作空间: 在处理连续动作空间时,需要采用额外的技巧,如使用函数逼近器(如深度神经网络)。
2.探索-利用问题:基于价值的方法对于探索-利用问题敏感,可能会陷入局部最优解。
3.高方差:基于价值的方法通常都是通过采样的方式来估计价值函数,这样会导致估计的方差很高,从而影响算法的收敛性。训练过程中存在高方差,使得训练不够稳定,可能需要采取一些技术手段进行缓解。
4.训练不稳定: 对于深度强化学习,训练可能不够稳定,容易受到样本相关性和非平稳性的影响。

(2)基于策略的算法:

优点:

1.直接生成动作:基于策略的方法直接生成动作,无需显式计算值函数,对于处理连续动作空间更为直接。
2.探索-利用平衡:由于是直接生成策略,可以更好地处理探索-利用平衡问题,对于探索更有灵活性。

缺点:

1.收敛性不如基于价值的方法:相对于基于价值的方法,基于策略的方法在找到全局最优解上可能更为困难。
2.对高维状态空间挑战较大:处理高维状态空间时,基于策略的方法通常需要更多的样本和计算资源。

在选择使用基于价值还是基于策略的算法时,通常取决于具体的问题要求、状态空间和动作空间的性质,以及对训练稳定性和收敛性的需求。一些算法,如深度确定性策略梯度(DDPG)和通用策略优化(TRPO,PPO),尝试结合两者的优点。

2.马尔可夫平稳分布需要满足什么条件?

马尔可夫链是一个随机过程,其中未来状态的条件概率只依赖于当前状态,而与过去状态无关。在这样的马尔可夫链中,存在一个平稳分布,也称为马尔可夫平稳分布。以下是马尔可夫平稳分布(Markov Stationary Distribution)需要满足的条件:

(1)可达性(Reachability)/连通性(connectedness)

从任意状态出发,可以通过有限步骤到达任何其他状态。这确保了系统是遍历的,不会陷入不可到达的状态。

(2)非周期性(Aperiodicity):

马尔可夫链不能有周期性,即不能存在一个正整数的最小公倍数,使得从某一状态出发,经过整数倍的步骤后回到原状态。非周期性确保了分布不会在某些状态之间来回循环。

(3)遍历性(Irreducibility)

马尔可夫链的任意状态都可以通过有限步骤到达任何其他状态。这保证了链是遍历的,而不是分散成多个不相连的子系统。

(4)正常返态(Positive Recurrence)

任何正常返态(recurrent state)的平稳分布概率必须是1。正常返态是指在有限步骤内必然返回的状态。
当马尔可夫链满足以上条件时,它会收敛到一个唯一的平稳分布。这个平稳分布表示在长时间内,马尔可夫链的状态概率分布趋于稳定,不再随时间变化。这样的平稳分布在许多应用中都具有重要的性质和应用。
“平稳分布,顾名思义就是指在无外界干扰的情况下,系统长期运行之后其状态分布会趋于一个固定的分布,不再随时间变化。已经跑过一些强化学习实战的读者们也会发现,每次成功跑一个算法,奖励曲线都会收敛到一个相对稳定的值,只要环境本身不变,哪怕换一种算法,奖励曲线也会收敛到一个相对稳定的值,除非我们改动了环境的一些参数比如调奖励等,这就是平稳分布的概念。”——JoyRLBook_9.4.1平稳分布

3.REINFORCE 算法会比Q-learning算法训练速度更快吗?为什么?

对于不同的问题,这个问题的答案可能是不同的。
以下是一些影响REINFORCE 算法和 Q-learning 算法训练速度的因素:

(1)更新时机:

  • Q-learning: Q-learning 是一种值函数方法,其更新发生在每个时间步。它使用贝尔曼方程,通过估计当前状态-动作对的值和下一状态的最大估计值来进行更新。
  • REINFORCE: REINFORCE 是一种策略梯度方法,其更新通常在整个轨迹结束后进行。它使用蒙特卡罗采样计算整个轨迹的回报,并通过梯度上升来更新策略。

(2)样本效率:

  • Q-learning: Q-learning 可能更为样本效率,因为它可以利用每个时间步的经验进行更新。这样,智能体可以更快地从环境中学到有关最优动作的信息。
  • REINFORCE: REINFORCE 通常需要更多的样本,因为它使用整个轨迹的回报进行更新。这可能导致训练过程需要更多的交互与环境的经验。

(3)Exploration vs. Exploitation:

  • Q-learning: Q-learning 可以轻松地采用贪心或 ε-贪心策略,以在探索和利用之间取得平衡。这有助于更有效地学习最优策略。
  • REINFORCE: REINFORCE 可能需要更多的探索,因为它主要通过梯度上升来调整策略。这可能导致训练过程中探索不足或过度探索的问题。

(4)稳定性:

  • Q-learning: Q-learning 通常具有相对较稳定的更新规则,特别是在使用经验回放等技术时。这有助于防止训练过程中的不稳定性。
  • REINFORCE: REINFORCE 使用梯度上升,可能更容易受到训练不稳定性的影响,特别是在使用神经网络等复杂函数逼近器时。

总体而言,不同问题和场景可能更适合使用其中一种算法。在实践中,选择算法通常取决于问题的性质、可用的数据和计算资源。

4.确定性策略与随机性策略的区别?

在强化学习中,确定性策略和随机策略是两种不同的决策方式,它们的区别主要体现在对于给定状态s下选择动作a的方式上。

(1)确定性策略(Deterministic Policy)

  • 定义: 确定性策略是指在给定状态下,对应一个确定的动作。
  • 表达: 用函数表示为 a = π \pi π(s),其中 π \pi π是策略函数,接受状态 s 作为输入,返回一个确定的动作 a。
  • 例子: 如果在某一状态下的确定性策略为选择动作 (a1),则对应的策略函数为 π \pi π(s) = a1。

(2)随机策略(Stochastic Policy)

  • 定义: 随机策略是指在给定状态下,对应一个动作的概率分布。即以一定概率选择不同的动作。
  • 表达: 用概率分布表示为 a ~ π \pi π(·|s),其中 π \pi π(·|s) 是在状态 s 下选择动作的条件概率分布。
  • 例子: 如果在某一状态下的随机策略为以概率 0.8 选择动作 a1,以概率 0.2 选择动作 a2,则对应的策略函数为 π \pi π(a1|s) = 0.8 和 π \pi π(a2|s) = 0.2。

区别总结:
(1)确定性策略直接指定在给定状态下应该选择的动作,是一个确定的映射。
(2)随机策略在给定状态下以概率分布的方式选择动作,引入了随机性,使得在相同状态下可能选择不同的动作。
在实际应用中,选择确定性策略还是随机策略通常取决于问题的性质和具体的需求。确定性策略在某些情况下更容易理解和解释,而随机策略则允许更灵活的行为和更好的探索性质。

  • 21
    点赞
  • 28
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值