Richard S.Sutton强化学习(第二版)第二章习题答案

本人正在学习这本书,将不定期将我弄明白的课后习题答案在此更新,大家评论区一起探讨:

2.1 由题可知k=2,探索的概率为0.5,所以贪婪动作被选择的概率包括单纯的贪婪和探索中随机选中贪婪动作两种可能,所以概率为(1-0.5)+0.5/2=0.75。

2.2由题可知k=4,进行了5次动作,可根据动作-价值方法,即式2.1,计算出动作价值,列表如下:

 (本图摘自:rlai-exercises/Exercise 2.2.md at master · borninfreedom/rlai-exercises · GitHub

 其中1,2,3步均选择了最大收益的动作,4,5没有,所以4,5是探索过程,1,2,3不确定。

2.3因为是长期表现,可以认为进行了无穷多步动作,计算贪婪动作发生的概率分别为99.1%和91%,所以探索发生的概率为0.01时最好。

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值