【读邹伟等著强化学习】第1章~第7章

ISBN: 9787302538295

第二章
p21
这个矩阵运算与p18下方的值函数自迭代公式相比,似乎少了对于a的求和号。因此我认为只有在确定性策略下这个式子才成立。

第三章
p29
策略评估中,书中说由于其他未知量已知,因此该方法的反复迭代终将收敛。这个说服力不足够。
p29
倒数第二行,类似p21的问题。另外sigma号固然可以如此安放,但是没有限定求和范围的括号。
p30
倒数第五行缺括号
p37
\pi * 那行缺括号

第四章
p53
在这里插入图片描述
p53
在这里插入图片描述p59
在这里插入图片描述
第六章
p113
在这里插入图片描述

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值