强化学习（SAC）

最新推荐文章于 2025-03-25 18:16:41 发布

胡萝拔贝贝

最新推荐文章于 2025-03-25 18:16:41 发布

阅读量1.4k

点赞数 10

分类专栏：强化学习文章标签：深度学习 python 神经网络

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_42209537/article/details/136191605

版权

强化学习专栏收录该内容

11 篇文章

订阅专栏

SAC—— soft actor-critic

SAC算法是一种现代的深度强化学习算法，它结合了基于策略的和基于价值的方法。SAC的核心思想是最大化期望回报的同时保持策略的随机性，这有助于提高探索环境的效率，并且通常可以赵高更好的策略。

发展史：

TD3算法在DDPG算法的基础上引入了双critic网络和延迟更新，进一步提升了算法的性能；SAC算法在TD3算法的基础上进一步拓展，引入了熵优化和自适应温度参数等技术，以适应更复杂的任务。

SAC算法最早于2018年被提出，该算法结合了actor-critic方法和强化学习中的熵概念。

随机策略&确定性策略

随机策略stochastic policy：在给定状态时，不会总是产生相同的动作，相反它会根据某种概率分布选择动作，这意味着及时智能体处于相同的状态，也可能选择不同的动作。

确定性策略deterministic policy：在给定状态时，总是产生相同的动作，这意味着无论何时智能体处于特定状态，都会选择相同的动作。

基于最大熵的RL算法的优势：

不仅想要长期的回报最大，还想要policy的每一次输出的action的熵最大，这样做是为了让策略随机化，也是在鼓励探索，为具有相似的Q值的动作分配近乎均等的概率，不会给动作范围内任何一个动作分配非常高的概率，避免了反复选择同一个动作而陷入次优。

伪代码：

初始化参数： $\psi$ （软状态值函数中）、 $\bar{\psi }$ 、 $\theta$ （软Q值函数中）、 $\phi$ （策略函数中）

for each iteration do

for each environment step do

$a_{t}\sim \pi _{\phi }\left ( a_{t}|s_{t} \right )$

$s_{t+1}\sim p\left ( s_{t+1} |s_{t},a_{t}\right )$

$D\leftarrow D\cup \left \{ \left ( S_{t}, a_{t}, r\left ( s_{t}, a_{t} \right ), s_{t+1} \right ) \right \}$

end for

for each gradient step do

更新V： $\psi \leftarrow \psi -\lambda _{V}\hat{\triangledown _{\psi }}J_{V}\left ( \psi \right )$

更新软Q： $\theta _{i}\leftarrow \theta _{i}-\lambda _{Q}\hat{\triangledown}_{\theta _{i}}J_{Q}\left ( \theta _{i} \right )$

更新策略： $\phi \leftarrow \phi -\lambda _{\pi }\hat{\triangledown }_{\theta _{i}}J_{\pi }\left ( \phi \right )$

更新target V： $\bar{\psi }\leftarrow \tau \psi +\left ( 1-\tau \right )\bar{\psi }$

end for

end for

SAC网络架构

SAC算法中温度参数通常体现在actor网络的输出中，actor网络的输出是带噪声的策略，其中你早生的程度由温度参数控制。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。