为何DDPG是off-policy算法？

最新推荐文章于 2024-05-07 21:52:57 发布

百川千仞

最新推荐文章于 2024-05-07 21:52:57 发布

阅读量1.3k

点赞数 6

分类专栏： Latex 文章标签：算法

本文链接：https://blog.csdn.net/thebeautyofmath/article/details/124191356

版权

Latex 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

用于求解动作价值函数的Bellman方程可以表示为：
$\pi } ( s _ { t } , a _ { t } ) = E _ { r _ { t } , s _ { t + 1 } \sim E } [ r ( s _ { t } , a _ { t } ) + \gamma E _ { a _ { t + 1 } \sim \pi } [ Q ^ { \pi } ( s _ { t + 1 } , a _ { t + 1 } ) ] ]$
If the target policy is deterministic we can describe it as a function $\mu$ : $\leftarrow A$ and avoid the inner expectation:
$\mu } ( s _ { t } , a _ { t } ) = E _ { r _ { t } , s _ { t + 1 } \sim E } [ r ( s _ { t } , a _ { t } ) + \gamma Q ^ { \mu } ( s _ { t + 1 } , \mu ( s _ { t + 1 } ) ) ]$
实际上，由于需要对 $t + 1$ 时刻动作价值函数求期望，这一步操作的不同，带来了off-policy和on-policy的差异。
对于Q-learning而言，它可以通过 $s_{t+1}$ 来估一个动作，然后选取动作最大值来消除动作的不确定性，对于DDPG而言，它通过输出确定动作，来消除动作不确定性，这都能保证它们是off-policy，因为只要环境确定了，它们在当前状态中输出的动作就是确定的，它们可以直接用 $s_t,a_t,r_t,s_{t+1})$ 来训练，而不需要 $a_{t+1}$ 。
但AC就不行，因为它输出的是动作分布，只给一个 $s_{t+1}$ 是无法确定 $a_{t+1}$ 的，进而无法确定 $Q$ 值，只有等下一步动作确定后才能来算 $Q$ 值，因为它需要依赖自己的真实决策值来对期望进行蒙特卡罗近似，所以它就没法用别人的经验。

百川千仞

关注

6
点赞
踩
2

收藏

觉得还不错? 一键收藏
1
评论
为何DDPG是off-policy算法？

用于求解动作价值函数的Bellman方程可以表示为：Qπ(st,at)=Ert,st+1∼E[r(st,at)+γEat+1∼π[Qπ(st+1,at+1)]]Q ^ { \pi } ( s _ { t } , a _ { t } ) = E _ { r _ { t } , s _ { t + 1 } \sim E } [ r ( s _ { t } , a _ { t } ) + \gamma E _ { a _ { t + 1 } \sim \pi } [ Q ^ { \pi } ( s _ { t
复制链接

扫一扫

专栏目录