自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(2)
  • 收藏
  • 关注

原创 Richard S.Sutton强化学习(第二版)第二章习题答案2.4

2.4 本题在中文版的书中翻译可能不是很准确(个人推断),我寻找了英文原题如下:If the step-size parameters, αn, are not constant, then the estimate Qn is a weighted average of previously received rewards with a weighting difffferent from that given by (2.6). What is the weighting on each pr

2021-09-17 16:39:17 432 1

原创 Richard S.Sutton强化学习(第二版)第二章习题答案

本人正在学习这本书,将不定期将我弄明白的课后习题答案在此更新,大家评论区一起探讨:2.1 由题可知k=2,探索的概率为0.5,所以贪婪动作被选择的概率包括单纯的贪婪和探索中随机选中贪婪动作两种可能,所以概率为(1-0.5)+0.5/2=0.75。2.2由题可知k=4,进行了5次动作,可根据动作-价值方法,即式2.1,计算出动作价值,列表如下:(本图摘自:rlai-exercises/Exercise 2.2.md at master · borninfreedom/rlai-exercis.

2021-09-15 21:52:21 1204 2

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除