本人正在学习这本书,将不定期将我弄明白的课后习题答案在此更新,大家评论区一起探讨:
2.1 由题可知k=2,探索的概率为0.5,所以贪婪动作被选择的概率包括单纯的贪婪和探索中随机选中贪婪动作两种可能,所以概率为(1-0.5)+0.5/2=0.75。
2.2由题可知k=4,进行了5次动作,可根据动作-价值方法,即式2.1,计算出动作价值,列表如下:
(本图摘自:rlai-exercises/Exercise 2.2.md at master · borninfreedom/rlai-exercises · GitHub)
其中1,2,3步均选择了最大收益的动作,4,5没有,所以4,5是探索过程,1,2,3不确定。
2.3因为是长期表现,可以认为进行了无穷多步动作,计算贪婪动作发生的概率分别为99.1%和91%,所以探索发生的概率为0.01时最好。