DRL策略梯度

李萌胖的蜕变之路

已于 2024-01-23 21:41:10 修改

阅读量1.3k

点赞数 21

分类专栏：笔记文章标签：人工智能 pytorch 算法

于 2024-01-21 00:01:03 首次发布

本文链接：https://blog.csdn.net/weixin_42230458/article/details/135723267

版权

笔记专栏收录该内容

3 篇文章 0 订阅

订阅专栏

DRL策略梯度

参考网址：https://datawhalechina.github.io/joyrl-book/#/ch9/main

作业：

1.基于价值和基于策略的算法各有什么优缺点？

基于价值（Value-based）和基于策略（Policy-based）是强化学习中两种常见的方法。以下是它们各自的优缺点：

（1）基于价值的算法：

优点：

1.收敛性较好：基于价值的方法通常更容易收敛到全局最优解，尤其在状态空间较小的情况下。
2.广泛适用：可以适用于离散和连续的状态和动作空间，包括处理高维状态空间的问题。

缺点：

1.难以处理连续动作空间：在处理连续动作空间时，需要采用额外的技巧，如使用函数逼近器（如深度神经网络）。
2.探索-利用问题：基于价值的方法对于探索-利用问题敏感，可能会陷入局部最优解。
3.高方差：基于价值的方法通常都是通过采样的方式来估计价值函数，这样会导致估计的方差很高，从而影响算法的收敛性。训练过程中存在高方差，使得训练不够稳定，可能需要采取一些技术手段进行缓解。
4.训练不稳定：对于深度强化学习，训练可能不够稳定，容易受到样本相关性和非平稳性的影响。

（2）基于策略的算法：

优点：

1.直接生成动作：基于策略的方法直接生成动作，无需显式计算值函数，对于处理连续动作空间更为直接。
2.探索-利用平衡：由于是直接生成策略，可以更好地处理探索-利用平衡问题，对于探索更有灵活性。

缺点：

1.收敛性不如基于价值的方法:相对于基于价值的方法，基于策略的方法在找到全局最优解上可能更为困难。
2.对高维状态空间挑战较大：处理高维状态空间时，基于策略的方法通常需要更多的样本和计算资源。

在选择使用基于价值还是基于策略的算法时，通常取决于具体的问题要求、状态空间和动作空间的性质，以及对训练稳定性和收敛性的需求。一些算法，如深度确定性策略梯度（DDPG）和通用策略优化（TRPO，PPO），尝试结合两者的优点。

2.马尔可夫平稳分布需要满足什么条件？

马尔可夫链是一个随机过程，其中未来状态的条件概率只依赖于当前状态，而与过去状态无关。在这样的马尔可夫链中，存在一个平稳分布，也称为马尔可夫平稳分布。以下是马尔可夫平稳分布（Markov Stationary Distribution）需要满足的条件：

（1）可达性（Reachability）/连通性（connectedness）

从任意状态出发，可以通过有限步骤到达任何其他状态。这确保了系统是遍历的，不会陷入不可到达的状态。

（2）非周期性（Aperiodicity）：

马尔可夫链不能有周期性，即不能存在一个正整数的最小公倍数，使得从某一状态出发，经过整数倍的步骤后回到原状态。非周期性确保了分布不会在某些状态之间来回循环。

（3）遍历性（Irreducibility）

马尔可夫链的任意状态都可以通过有限步骤到达任何其他状态。这保证了链是遍历的，而不是分散成多个不相连的子系统。

（4）正常返态（Positive Recurrence）

任何正常返态（recurrent state）的平稳分布概率必须是1。正常返态是指在有限步骤内必然返回的状态。
当马尔可夫链满足以上条件时，它会收敛到一个唯一的平稳分布。这个平稳分布表示在长时间内，马尔可夫链的状态概率分布趋于稳定，不再随时间变化。这样的平稳分布在许多应用中都具有重要的性质和应用。
“平稳分布，顾名思义就是指在无外界干扰的情况下，系统长期运行之后其状态分布会趋于一个固定的分布，不再随时间变化。已经跑过一些强化学习实战的读者们也会发现，每次成功跑一个算法，奖励曲线都会收敛到一个相对稳定的值，只要环境本身不变，哪怕换一种算法，奖励曲线也会收敛到一个相对稳定的值，除非我们改动了环境的一些参数比如调奖励等，这就是平稳分布的概念。”——JoyRLBook_9.4.1平稳分布

3.REINFORCE 算法会比Q-learning算法训练速度更快吗？为什么？

对于不同的问题，这个问题的答案可能是不同的。
以下是一些影响REINFORCE 算法和 Q-learning 算法训练速度的因素：

（1）更新时机：

Q-learning： Q-learning 是一种值函数方法，其更新发生在每个时间步。它使用贝尔曼方程，通过估计当前状态-动作对的值和下一状态的最大估计值来进行更新。
REINFORCE： REINFORCE 是一种策略梯度方法，其更新通常在整个轨迹结束后进行。它使用蒙特卡罗采样计算整个轨迹的回报，并通过梯度上升来更新策略。

（2）样本效率：

Q-learning： Q-learning 可能更为样本效率，因为它可以利用每个时间步的经验进行更新。这样，智能体可以更快地从环境中学到有关最优动作的信息。
REINFORCE： REINFORCE 通常需要更多的样本，因为它使用整个轨迹的回报进行更新。这可能导致训练过程需要更多的交互与环境的经验。

（3）Exploration vs. Exploitation：

Q-learning： Q-learning 可以轻松地采用贪心或 ε-贪心策略，以在探索和利用之间取得平衡。这有助于更有效地学习最优策略。
REINFORCE： REINFORCE 可能需要更多的探索，因为它主要通过梯度上升来调整策略。这可能导致训练过程中探索不足或过度探索的问题。

（4）稳定性：

Q-learning： Q-learning 通常具有相对较稳定的更新规则，特别是在使用经验回放等技术时。这有助于防止训练过程中的不稳定性。
REINFORCE： REINFORCE 使用梯度上升，可能更容易受到训练不稳定性的影响，特别是在使用神经网络等复杂函数逼近器时。

总体而言，不同问题和场景可能更适合使用其中一种算法。在实践中，选择算法通常取决于问题的性质、可用的数据和计算资源。

4.确定性策略与随机性策略的区别？

在强化学习中，确定性策略和随机策略是两种不同的决策方式，它们的区别主要体现在对于给定状态s下选择动作a的方式上。

（1）确定性策略（Deterministic Policy）

定义：确定性策略是指在给定状态下，对应一个确定的动作。
表达：用函数表示为 a = $\pi$ (s)，其中 $\pi$ 是策略函数，接受状态 s 作为输入，返回一个确定的动作 a。
例子：如果在某一状态下的确定性策略为选择动作 (a1)，则对应的策略函数为 $\pi$ (s) = a1。

（2）随机策略（Stochastic Policy）

定义：随机策略是指在给定状态下，对应一个动作的概率分布。即以一定概率选择不同的动作。
表达：用概率分布表示为 a ～ $\pi$ (·|s)，其中 $\pi$ (·|s) 是在状态 s 下选择动作的条件概率分布。
例子：如果在某一状态下的随机策略为以概率 0.8 选择动作 a1，以概率 0.2 选择动作 a2，则对应的策略函数为 $\pi$ (a1|s) = 0.8 和 $\pi$ (a2|s) = 0.2。

区别总结：
(1)确定性策略直接指定在给定状态下应该选择的动作，是一个确定的映射。
(2)随机策略在给定状态下以概率分布的方式选择动作，引入了随机性，使得在相同状态下可能选择不同的动作。
在实际应用中，选择确定性策略还是随机策略通常取决于问题的性质和具体的需求。确定性策略在某些情况下更容易理解和解释，而随机策略则允许更灵活的行为和更好的探索性质。