如下为增强学习算法中Q-Learning的更新公式
Q
(
s
,
a
)
←
Q
(
s
,
a
)
+
α
[
r
+
γ
arg
max
a
′
Q
(
s
′
,
a
′
)
−
Q
(
s
,
a
)
]
Q(s,a)\gets Q(s,a)+\alpha [r+\gamma \mathop{\arg\max}_{a'}Q(s', a')-Q(s,a)]
Q(s,a)←Q(s,a)+α[r+γargmaxa′Q(s′,a′)−Q(s,a)]
增强学习之一——Q-Learning公式
最新推荐文章于 2025-03-20 11:27:44 发布