《Reinforcement Learning: An Introduction》 读书笔记 - 目录

这一系列笔记是基于Richard S. Sutton的《Reinforcement Learning: An Introduction》第二版
因为这本书在出版之前,作者就在官网上发布了几次草稿版,不同时间发布的版本之间的排版有所差异(尤其是2017年和2018年的之间)
本系列基于2018年的几个版本,所以如果文中部分内容所指明的地方和读者看到的不一致,敬请谅解~

第2章:多臂老虎机(Multi-armed Bandits)

第3章:有限马尔科夫决策过程(Finite Markov Decision Processes)

第4章:动态规划(Dynamic Programming)

第5章:蒙特卡洛方法(Monte Carlo Methods)

第6章:时序差分学习(TD-Learning)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值