自定义博客皮肤VIP专享

*博客头图：

点击选择上传的图片

格式为PNG、JPG，宽度*高度大于1920*100像素，不超过2MB，主视觉建议放在右侧，请参照线上博客头图

请上传大于1920*100像素的图片！

博客底图：

点击选择上传的图片

图片格式为PNG、JPG，不超过1MB，可上下左右平铺至整个背景

栏目图：

点击选择上传的图片

图片格式为PNG、JPG，图片宽度*高度为300*38像素，不超过0.5MB

主标题颜色：

RGB颜色，例如：#AFAFAF

Hover：

RGB颜色，例如：#AFAFAF

副标题颜色：

RGB颜色，例如：#AFAFAF

预览取消提交

自定义博客皮肤

-+

上一步保存

qq_40121479的博客

原创 Richard S.Sutton强化学习（第二版）第二章习题答案2.4

2.4 本题在中文版的书中翻译可能不是很准确（个人推断），我寻找了英文原题如下：If the step-size parameters, αn, are not constant, then the estimate Qn is a weighted average of previously received rewards with a weighting difffferent from that given by (2.6). What is the weighting on each pr

2021-09-17 16:39:17 432 1

原创 Richard S.Sutton强化学习（第二版）第二章习题答案

本人正在学习这本书，将不定期将我弄明白的课后习题答案在此更新，大家评论区一起探讨：2.1 由题可知k=2，探索的概率为0.5，所以贪婪动作被选择的概率包括单纯的贪婪和探索中随机选中贪婪动作两种可能，所以概率为（1-0.5）+0.5/2=0.75。2.2由题可知k=4，进行了5次动作，可根据动作-价值方法，即式2.1，计算出动作价值，列表如下：（本图摘自：rlai-exercises/Exercise 2.2.md at master · borninfreedom/rlai-exercis.

2021-09-15 21:52:21 1204 2

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

non_whe CSDN认证博客专家 CSDN认证企业博客

码龄7年

IP 属地：黑龙江省

IP属地以运营商信息为准，境内显示到省（区、市），境外显示到国家（地区）

2: 原创

136万+: 周排名

91万+: 总排名

1636: 访问

: 等级

32: 积分

2: 粉丝

4: 获赞

3: 评论

7: 收藏

私信

关注

热门文章

最新评论

Richard S.Sutton强化学习（第二版）第二章习题答案
zsk23: 这个和答案不一样，不对吧，动作是由顺序的
Richard S.Sutton强化学习（第二版）第二章习题答案2.4
会飞的斯芬克斯: 确实感觉翻译得不准确。对于图中的一般公式，i=n时的收益是不是应该从求和符号中拿出来，单独写一项a_n*R_n？
Richard S.Sutton强化学习（第二版）第二章习题答案
柏某: 请问这个Q-table是从哪里来的呢

最新文章

提示

确定要删除当前文章？

取消删除