强化学习算法[1] Q-Learning笔记

Q-learning 解决的问题

Q-Learning解决决策问题,即在目前所处的环境下,采取何种行动才能获得最大收益。

需要注意的是,采取Q-Learning算法求解问题时需要保证所处的状态S为有限可列个,在每种状态下采取的行动a也为有限可列个!

Q-learning 算法简介

Q-Learning是一种强化学习中的value-based的算法,即根据目前所处状态下每个可采取行动的value,即Q值,Q(S,a)决策下一步行动。
该算法实现的关键在于Q-table的建立与更新,该表如下所示:

a1am
S1 Q ( S 1 , a 1 ) Q(S1,a1) Q(S1,a1) Q ( S 1 , a 1 ) Q(S1,a1) Q(S1,a1)
S2 Q ( S 2 , a 1 ) Q(S2,a1) Q(S2,a1) Q ( S 1 , a 1 ) Q(S1,a1) Q(S1,a1)
Sn Q ( S n , a 1 ) Q(Sn,a1) Q(Sn,a1) Q ( S n , a m ) Q(Sn,am) Q(Sn,am)

Q-learning 算法描述

Initialize Q(s,a) arbitrarily
Repeat (for each episode):
    Initialize s
    Repeat (for each step of episode):
        Choose a from s using policy derived from Q (e.g., ε-greedy)
        Take action a, observe r, s'
        Q(s,a) = Q(s,a) + α*[r + γ*max_a'(Q(s',a')) - Q(s,a)]
        s = s'
    Until s is terminal

Q-learning 算法理解

关于算法流程

  • Q值的理解:在给定状态S下,采取行动a期望得到的收益;
  • Q表的作用:存储可能的状态,以及该状态下不同行动期望得到的收益;
  • 外层循环(2-9行)的作用:在给定的环境中达成目标为一轮循环,同时也完成一轮训练;
  • 内层循环(4-8行)的作用:在给定的环境中采取行动实现状态的转移并根据环境反馈的收益r更新Q-Table;
  • 行动的选择(第5行):采取ε-greedy策略,每次选择有(1-ε)的概率选择当前状态下Q值最大的行动a,有ε概率随机选择行动a;
    • 其意义在于做出新的行动尝试,即随机探索环境的过程;
    • 在没有学习到环境以前,随机采取a,然后根据环境的反馈采取上式更新旧状态s下采取a的Q值,如此循环;随着逐渐学习,ε-greedy起到保证能学习到新内容的作用;
  • 得到反馈(第6行)来到新的状态S’,得到环境的反馈r;
  • 更新Q值与状态(7-8行);

关于公式
Q值更新公式:
Q ( s , a ) = Q ( s , a ) + α [ r + γ m a x a ′ ( Q ( s ′ , a ′ ) ) − Q ( s , a ) ] (1) Q(s,a) = Q(s,a) + α[r + γmax_{a'}(Q(s',a')) - Q(s,a)] \tag{1} Q(s,a)=Q(s,a)+α[r+γmaxa(Q(s,a))Q(s,a)](1)
个人便于理解改写成:
Q ( s , a ) = ( 1 − α ) Q ( s , a ) + α [ r + γ m a x a ′ ( Q ( s ′ , a ′ ) ) ] (2) Q(s,a) = (1-α)Q(s,a) + α[r + γmax_{a'}(Q(s',a'))] \tag{2} Q(s,a)=(1α)Q(s,a)+α[r+γmaxa(Q(s,a))](2)

其中:

  • α α α为学习率,决定学习速度;
  • ( 1 − α ) Q ( s , a ) (1-α)Q(s,a) (1α)Q(s,a)是对于过去Q值的衰减;
  • α [ r + γ m a x a ′ ( Q ( s ′ , a ′ ) ) ] α[r + γmax_{a'}(Q(s',a'))] α[r+γmaxa(Q(s,a))]是根据环境反馈学习得到的Q值。

对于第二项:
r + γ m a x a ′ ( Q ( s ′ , a ′ ) ) (3) r + γmax_{a'}(Q(s',a'))\tag{3} r+γmaxa(Q(s,a))(3)

其中:

  • r r r为环境直接给出的反馈,在s状态下采取行动a来到状态s’后环境给予的收益;
  • γ γ γ为对新状态s’下最大收益的衰减;
  • m a x a ′ ( Q ( s ′ , a ′ ) ) max_{a'}(Q(s',a')) maxa(Q(s,a))表示取新状态s’下期望得到的最大的收益,a’为此时采取的行动。

关于γ个人学习的是以下两种理解:

  1. 什么是 Q Leaning 莫烦老师的理解:
    莫烦
  2. 如何用简单例子讲解 Q - learning 的具体过程? 牛阿老师的例子:

    γ越大,小鸟就会越重视以往经验,越小,小鸟只重视眼前利益(R)。

踩坑的记录

  1. 对于状态的建模! 比如上述的flappy bird中,小鸟在做出上飞的决策后实际上产生了一个加速度,这个加速上升到坠落的过程会对后面的状态产生影响,应该被考虑。
  2. 奖励函数的设置! 需要考虑多种情况(还在探索ing)
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值