深度强化学习-SAC的网络结构和功能的通俗解释

最新推荐文章于 2025-05-23 21:50:34 发布

bloomerOAO

最新推荐文章于 2025-05-23 21:50:34 发布

阅读量3.8k

点赞数

分类专栏：强化学习四足机器人文章标签：强化学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_42744739/article/details/123069025

版权

四足机器人同时被 2 个专栏收录

9 篇文章

订阅专栏

2 篇文章

订阅专栏

深度强化学习-SAC的通俗解释

本blog不涉及具体理论解析，只希望从应用角度对算法进行解读。参考谷歌的SAC应用在四足机器人上的论文实现方法，所以和最初的论文有所不同。

如果想详细了解详细理论推导，可以参考博文：
最前沿：深度解读Soft Actor-Critic算法

SAC采用一种off-policy的随机策略。

off-policy：探索策略和学习策略不是同一个网络。设计两个结构相同的Q网络：soft-Q网络和目标Q网络，每个网络又包含两个结构相同的网络，为q1和q2网络。

在Q网络更新的时候，目标q网络根据at+1和st+1得到目标Q值，soft-Q网络根据此at和st获得期望Q值，然后根据规则计算两者的loss，之后利用梯度反向传播进行网络参数的更新。

策略更新：利用上步更新后的soft-Q网络根据at+1和st计算期望的q1值和q2值，取最小的作为期望的q值，根据规则计算策略损失，进行网络参数更新。

更新熵的系数a和目标网络参数只是按照规则计算就OK了。

随机性：策略网络输出的动作是一个分布，从里面随机采取一个动作进行执行。另外此方法的创新点就是在原奖励的基础上增加由动作分布确定的熵。这样在求解的过程中，使期望奖励最大化的同时也确保了熵越大，而熵越大则探索程度越大。两者都在一定程度上增加了网络的探索空间，使网络能够避免陷入局部最优解。
在这里插入图片描述

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。