Reinforcement learning:an introduction 课后习题

本文探讨了ε-greedy策略在强化学习中的应用,重点介绍了如何平衡探索新动作与利用已知最优动作的决策过程。通过Q-learning算法和ε值调整,文章展示了探索对长期奖励的影响以及在迷宫环境中的表现。
摘要由CSDN通过智能技术生成

section 2

2.1

设 两个行动分别为 a 1 , a 2 a_1,a_2 a1,a2, Q t ( a 1 ) > Q t ( a 2 ) Q_t(a_1) > Q_t(a_2) Qt(a1)>Qt(a2),即行动 a 1 a_1 a1为greedy action
P ( A t = a 1 ) P(A_t = a_1) P(At=a1) = 1 ⋅ ( 1 − ε ) 1 \cdot (1- \varepsilon) 1(1ε)+ 1 ⋅ ε ⋅ 0.5 1 \cdot \varepsilon \cdot0.5 1ε0.5=0.75

2.2

A 5 A_5 A5 必定是 ε \varepsilon ε 发生的time step 剩余的都是可能发生的time step

2.3

定量来看的的话累计奖励就是平均奖励的积分,1000steps来看的明显是 ε = 0.1 \varepsilon = 0.1 ε=0.1的时候大,当时间趋于无穷时 ε = 0.01 \varepsilon=0.01 ε=0.01更大,因为在找到最优行动后无效探索次数要比 ε = 0.1 \varepsilon=0.1 ε=0.1时小小十倍。

2.4

Q n + 1 = Q n + α n ( R n − Q n ) = ( 1 − α n ) Q n + α R n = ( 1 − α n ) ( 1 − α n − 1 ) Q n − 1 + α n − 1 ( 1 − α n ) ( 1 − α n − 1 ) R n − 1 + α n R n = ( 1 − α n ) . . . ( 1 − α 1 ) Q 1 + α 1 ( 1 − α n ) . . . ( 1 − α 1 ) R 1 + . . . + α n R n = ∏ i = 1 n ( 1 − α i ) Q 1 + ∑ k = 1 n α k R k ∏ i = k n ( 1 − α i ) \begin{aligned} Q_{n+1} &= Q_n +\alpha_n(R_n-Q_n)=(1-\alpha_n)Q_n+\alpha R_n \\ &=(1-\alpha_n)(1-\alpha_{n-1})Q_{n-1}+\alpha_{n-1} (1-\alpha_n)(1-\alpha_{n-1})R_{n-1}+\alpha_nR_n \\ &=(1-\alpha_n)...(1-\alpha_1)Q_1+\alpha_1(1-\alpha_n)...(1-\alpha_1)R_1+...+\alpha_nR_n \\ &=\prod^{n}_{i=1}(1-\alpha_i)Q_1+\sum^{n}_{k=1}\alpha_kR_k\prod_{i=k}^{n}(1-\alpha_i) \end{aligned} Qn+1=Qn+αn(RnQn)=(1αn)Qn+αRn=(1αn)(1αn1)Qn1+αn1(1αn)(1αn1)Rn1+αnRn=(1αn)...(1α1)Q1+α1(1αn)...(1α1)R1+...+αnRn=i=1n(1αi)Q1+k=1nαkRki=kn(1αi)

2.5

https://github.com/JTBBB-J/rl_learn.git
非静态情况下,stepsize为常值的reward
非静态情况下,stepsize为常值的最优行动率

2.6

尖刺情况出现在早期,应该就是在全部行动都采取过一次后bestaction的estimated value最大然后执行greedy action(由于初期所以estimated value受到的影响大),这一次执行后又导致estimated value 降低执行其他行动。

2.7

不会

2.8

前十次会把所有行动再试一次,然后第十一次由于N都为1所以必定执行greedy action,之后由于c比较大则会平凡选择那些选择次数少的行动,也就是会倾向于探索所以会导致value猛然下降。

2.9

一除分子就行

3.6

G t = { 0 − δ T − 1 G_t = \begin{cases} 0& \\ -\delta_{T-1}& \end{cases} Gt={0δT1

3.7

机器人不知道跑出迷宫会有奖励,且呆在迷宫中没有负的奖励,所以会导致机器人一直呆在迷宫中不会去找出口

3.8

带入公式就行

3.9

G 0 = 2 + 7 δ + 7 δ 2 + . . . . = 2 + 7 ( 1 1 − δ − 1 ) = 65 G_0 = 2 + 7\delta + 7\delta^2+.... = 2+7(\frac{1}{1-\delta}-1)=65 G0=2+7δ+7δ2+....=2+7(1δ11)=65
G 1 G_1 G1就是少了第一项所以就是63

3.10

就是级数算法

3.11

E [ R t + 1 ] = ∑ a π ( a ∣ s ) ∑ r ∈ R r t + 1 ∑ s ∈ s ′ P ( r t + 1 , s t + 1 ∣ s t , a t ) E[R_{t+1}] = \sum_{a}\pi(a|s)\sum_{r \in R}r_{t+1}\sum_{s\in s'}P(r_{t+1},s_{t+1}|s_t,a_t) E[Rt+1]=aπ(as)rRrt+1ssP(rt+1,st+1st,at)

3.12

V π ( s ) = E [ G t ∣ S t = s ] = ∑ G t P ( G t ∣ S t ) = ∑ s G t ( ∑ a P ( A t ∣ S t ) P ( G t ∣ A t , S t ) ) = ∑ a P ( A t ∣ S t ) q π ( s , a ) = ∑ a π ( a ∣ s ) q π ( s , a ) \begin{aligned} V_\pi(s) &= E[G_t|S_t =s] = \sum G_tP(G_t|S_t) \\ &= \sum_s G_t(\sum_a P(A_t|S_t)P(G_t|A_t,S_t)) \\ &= \sum_a P(A_t|S_t) q_\pi(s,a) = \sum_a \pi(a|s)q_\pi(s,a) \end{aligned} Vπ(s)=E[GtSt=s]=GtP(GtSt)=sGt(aP(AtSt)P(GtAt,St))=aP(AtSt)qπ(s,a)=aπ(as)qπ(s,a)

3.13

不会

3.14

∑ π ( a ∣ s ) ∑ p ( s ′ , r ∣ s , a ) [ r + δ v π ( s ′ ) ] = 0.25 ( 0.9 ∗ 0.4 ) + 0.25 ( 0.9 ∗ 2.3 ) + 0.25 ( 0.9 ∗ 0.7 ) + 0.25 ( 0.9 ∗ ( − 0.4 ) ) = 0.675 \begin{aligned} \sum\pi(a|s)\sum p(s',r|s,a)[r+\delta v_\pi(s')]&=0.25(0.9*0.4)+0.25(0.9*2.3)+0.25(0.9*0.7)+0.25(0.9*(-0.4)) \\ &=0.675 \end{aligned} π(as)p(s,rs,a)[r+δvπ(s)]=0.25(0.90.4)+0.25(0.92.3)+0.25(0.90.7)+0.25(0.9(0.4))=0.675
这里其实没太搞懂为什么不把从b到b’得到+5reward的概率算上,有大佬能解答一下吗

3.15

G t ′ = ∑ δ k ( R t + k + 1 + c ) = ∑ δ k ( R t + k + 1 ) + ∑ δ k c = ∑ δ k ( R t + k + 1 ) + c 1 − δ G_t' = \sum \delta^k(R_{t+k+1}+c)=\sum \delta^k(R_{t+k+1})+\sum\delta^kc=\sum \delta^k(R_{t+k+1})+\frac{c}{1-\delta} Gt=δk(Rt+k+1+c)=δk(Rt+k+1)+δkc=δk(Rt+k+1)+1δc
v π = E [ G t ′ ∣ S t = s ] = E [ G t ∣ S t = s ] + c 1 − δ v_\pi=E[Gt'|S_t=s] = E[G_t|S_t=s]+\frac{c}{1-\delta} vπ=E[GtSt=s]=E[GtSt=s]+1δc

3.17

v π v_\pi vπ的bellman 等式推到类似,详情见强化学习 学习记录(2)
q π ( s , a ) = ∑ r , s ′ p ( s ′ , r ∣ s , a ) [ r + δ q π ( s ′ , a ) ] q_\pi(s,a)=\sum_{r,s'}p(s',r|s,a)[r+\delta q_\pi(s',a)] qπ(s,a)=r,sp(s,rs,a)[r+δqπ(s,a)]

3.18

v π = E [ q π ( s , a ) ∣ S t = s , A t = a ] = ∑ π ( a ∣ s ) q π ( s , a ) v_\pi = E[q_\pi(s,a)|S_t=s,A_t=a]=\sum\pi(a|s)q_\pi(s,a) vπ=E[qπ(s,a)St=s,At=a]=π(as)qπ(s,a)

3.19

q π ( s , a ) = E [ r + v π ( s ′ ) ∣ S t = s ′ , A t = a ] = ∑ s ′ , a P ( s ′ , r ∣ a , s ) ( r + v π ( s ′ ) ) q_\pi(s,a) = E[r+v_\pi(s')|S_t=s',A_t=a] = \sum_{s',a}P(s',r|a,s)(r+v_\pi(s')) qπ(s,a)=E[r+vπ(s)St=s,At=a]=s,aP(s,ra,s)(r+vπ(s))

4.1

q π ( 11 , d o w n ) = ∑ s ′ p ( s ′ , r ∣ s , a ) [ r + δ v π ( s ′ ) ] = 1 ∗ ( − 1 + 0 ) = − 1 q_\pi(11,down) = \sum_{s'}p(s',r|s,a)[r+\delta v_\pi(s')] = 1*(-1+0)=-1 qπ(11,down)=sp(s,rs,a)[r+δvπ(s)]=1(1+0)=1
q π ( 7 , d o w n ) q_\pi(7,down) qπ(7,down)同理,答案为-15

4.2

如果 v π ( 13 ) v_\pi(13) vπ(13)不变仍然为-20,则
v π ( 15 ) = 3 / 4 ( − 1 + v π ( 15 ) ) + 1 / 4 ( − 1 − 20 ) v_\pi(15) = 3/4(-1+v_\pi(15))+1/4(-1-20) vπ(15)=3/4(1+vπ(15))+1/4(120)
解出来 v π ( 15 ) = − 24 v_\pi(15)=-24 vπ(15)=24
如果 v π ( 13 ) v_\pi(13) vπ(13)改变的话,把强化学习 学习记录(3)中的代码改下就能跑出来

### 回答1: 《强化学习导论》(Reinforcement Learning: An Introduction)是Richard S. Sutton和Andrew G. Barto合作编写的一本经典教材,是强化学习领域的一本重要参考书。该书系统地介绍了强化学习的基本概念、算法和应用。 这本书分为三个部分。第一部分概述了强化学习的基本概念和问题,介绍了强化学习的基本元素:智能体、环境、状态、动作、奖励等,并讨论了不同类型的强化学习问题。第二部分重点介绍了标准强化学习问题的解决方法,包括动态规划、蒙特卡罗方法和时间差分学习等。通过这些方法,可以学习到如何最大化累积奖励来达到特定目标。第三部分则讨论了强化学习中的其他重要主题,如函数近似学习、策略梯度方法、探索与利用的平衡等。 这本书有几个显著的特点。首先,它以直观的例子和图解介绍了强化学习的基本概念,使得读者能够更容易地理解和掌握相关知识。其次,书中提供了大量的算法和伪代码,方便读者实际操作和实现。此外,书中还包含了丰富的练习题和案例研究,可以帮助读者巩固学习成果和应用知识。 《强化学习导论》被广泛应用于学术界和工业界,对于研究者、学生和工程师都具有重要的参考价值。它为读者提供了一个系统和全面的学习路径,帮助他们深入理解强化学习的原理和方法,并在实际问题中应用和发展强化学习技术。通过阅读《强化学习导论》,读者将能够了解强化学习的基本思想,熟悉常用的解决方法,并能够运用这些知识解决实际问题,为相关领域的研究和应用做出贡献。 ### 回答2: 《强化学习导论》(Reinforcement Learning: An Introduction)是一本经典的强化学习教材,由Richard S. Sutton和Andrew G. Barto合著。 该书的主要目的是介绍强化学习的基本概念、方法和算法。强化学习是一种机器学习的分支,其中智能体通过与环境的交互来学习最佳行动策略。与传统的监督学习和无监督学习不同,强化学习的训练过程主要基于奖励信号的反馈。 《强化学习导论》的内容涵盖了强化学习的基础知识和重要概念。首先,书中介绍了马尔可夫决策过程(Markov Decision Process,MDP)作为强化学习问题的数学框架。然后详细介绍了值函数和策略的概念,以及如何通过值函数和策略来指导智能体的学习和决策过程。 该书还介绍了各种强化学习方法,如蒙特卡罗方法、时序差分学习和Q-learning等。这些方法用于解决基于模型(model-based)和非基于模型(model-free)的强化学习问题。每种方法的优点、局限性和适用场景都有详细阐述。 此外,《强化学习导论》还提供了大量的实例和案例研究,以帮助读者加深对强化学习理论的理解。书中还包含了许多练习题和算法伪代码,读者可以通过实践来巩固所学的知识。 总之,《强化学习导论》是一本系统全面介绍强化学习理论和方法的经典教材。它不仅适合作为强化学习领域的入门读物,也适合作为学术界和工业界从业人员的参考书籍。 ### 回答3: 《强化学习:一种介绍》(Reinforcement Learning: An Introduction)是由Richard S. Sutton和Andrew G. Barto合著的一本权威教材,详细介绍了强化学习的原理和应用。 该书首先从强化学习的基本概念入手,解释了强化学习与其他机器学习方法的区别。强化学习是一种学习代理如何通过与环境的交互来最大化奖励的方法。与监督学习和无监督学习不同,强化学习的代理在无人指导的情况下进行学习,通过不断试错来逐步提升策略的质量。 书中详细介绍了强化学习中的基本要素:环境、状态、动作和奖励。同时,书中还介绍了多种强化学习算法,包括动态规划、蒙特卡洛方法和时序差分学习等。这些算法分别适用于不同类型的问题和环境,读者可以根据具体情况选择合适的算法进行应用。 此外,书中还介绍了强化学习中的进一步概念,如函数逼近和价值函数等。函数逼近是解决大规模问题的关键技术,而价值函数则用于评估状态或策略的质量。通过这些进一步的概念,读者可以深入理解强化学习的工作原理,并应用于解决复杂实际问题。 《强化学习:一种介绍》是一本深入浅出、权威且易读的教材,适合学习强化学习的初学者和相关领域的研究人员。无论是对于计算机科学、人工智能还是机器学习感兴趣的读者,该书都提供了一个良好的入门指南,帮助读者理解并应用强化学习的基本原理和方法。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值