Q-Learning 公式

最新推荐文章于 2022-10-14 10:00:11 发布

GlassyBug

最新推荐文章于 2022-10-14 10:00:11 发布

阅读量827

点赞数

分类专栏：机器学习文章标签： Q-Learning

机器学习专栏收录该内容

9 篇文章 0 订阅

订阅专栏

Initialize Q arbitrarily
Repeat (for each episode):
    Initialize S
    Repeat (for each step of episode):
        Choose A from S using policy derived from Q(e.g.,  ε-greedy)
        Take action A, observe R,S'
        Q(S,A) ← *Q(S,A) + α*[R + γ*maxQ(S',a)]
        S ← S'
    until S is terminal

# α : Learing rate
# γ : 衰减值