《强化学习》（第2版）目录

songyuc

已于 2024-07-28 21:36:55 修改

阅读量78

点赞数 1

文章标签： RL

于 2024-07-28 21:31:12 首次发布

本文链接：https://blog.csdn.net/songyuc/article/details/140756625

版权

目录	页码
第1章导论	1
1.1 强化学习	1
1.2 示例	4
第I部分表格型求解方法	23
第2章多臂赌博机	25
第3章有限马尔可夫决策过程	45
3.1 “智能体-环境”交互接口	45
3.2 目标和收益	51
3.3 回报和分幕	52
3.4 分幕式和持续性任务的统一表示法	54
3.5 策略和价值函数	55
3.6 最优策略和最优价值函数	60
3.7 最优性和近似算法	65
3.8 本章小结	66

第1章导论

1.3 强化学习要素 … 5
1.4 局限性与适用范围 … 7
1.5 扩展实例：井字棋 … 8
1.6 本章小结 … 12
1.7 强化学习的早期历史 … 13

第2章多臂赌博机

2.1 一个k臂赌博机问题 … 25
2.2 动作-价值方法 … 27
2.3 10臂测试平台 … 28
2.4 增量式实现 … 30
2.5 跟踪一个非平稳问题 … 32
2.6 乐观初始值 … 34
2.7 基于置信度上界的动作选择 … 35
2.8 梯度赌博机算法 … 37
2.9 关联搜索（上下文相关的赌博机） … 40
2.10 本章小结 … 41

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

songyuc

关注关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
《强化学习》（第2版）目录

2.9 关联搜索（上下文相关的赌博机） …2.7 基于置信度上界的动作选择 …1.7 强化学习的早期历史 …2.1 一个k臂赌博机问题 …2.5 跟踪一个非平稳问题 …1.4 局限性与适用范围 …1.5 扩展实例：井字棋 …2.2 动作-价值方法 …2.3 10臂测试平台 …2.8 梯度赌博机算法 …1.3 强化学习要素 …2.4 增量式实现 …2.6 乐观初始值 …2.10 本章小结 …1.6 本章小结 …
复制链接

扫一扫