- 博客(2)
- 收藏
- 关注
原创 Richard S.Sutton强化学习(第二版)第二章习题答案2.4
2.4 本题在中文版的书中翻译可能不是很准确(个人推断),我寻找了英文原题如下:If the step-size parameters, αn, are not constant, then the estimate Qn is a weighted average of previously received rewards with a weighting difffferent from that given by (2.6). What is the weighting on each pr
2021-09-17 16:39:17
432
1
原创 Richard S.Sutton强化学习(第二版)第二章习题答案
本人正在学习这本书,将不定期将我弄明白的课后习题答案在此更新,大家评论区一起探讨:2.1 由题可知k=2,探索的概率为0.5,所以贪婪动作被选择的概率包括单纯的贪婪和探索中随机选中贪婪动作两种可能,所以概率为(1-0.5)+0.5/2=0.75。2.2由题可知k=4,进行了5次动作,可根据动作-价值方法,即式2.1,计算出动作价值,列表如下:(本图摘自:rlai-exercises/Exercise 2.2.md at master · borninfreedom/rlai-exercis.
2021-09-15 21:52:21
1204
2
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人