《强化学习》(第2版)目录

目录页码
第1章 导论1
   1.1 强化学习1
   1.2 示例4
第I部分 表格型求解方法23
第2章 多臂赌博机25
第3章 有限马尔可夫决策过程45
   3.1 “智能体-环境”交互接口45
   3.2 目标和收益51
   3.3 回报和分幕52
   3.4 分幕式和持续性任务的统一表示法54
   3.5 策略和价值函数55
   3.6 最优策略和最优价值函数60
   3.7 最优性和近似算法65
   3.8 本章小结66

第1章 导论

1.3 强化学习要素 … 5
1.4 局限性与适用范围 … 7
1.5 扩展实例:井字棋 … 8
1.6 本章小结 … 12
1.7 强化学习的早期历史 … 13

第2章 多臂赌博机

2.1 一个k臂赌博机问题 … 25
2.2 动作-价值方法 … 27
2.3 10臂测试平台 … 28
2.4 增量式实现 … 30
2.5 跟踪一个非平稳问题 … 32
2.6 乐观初始值 … 34
2.7 基于置信度上界的动作选择 … 35
2.8 梯度赌博机算法 … 37
2.9 关联搜索(上下文相关的赌博机) … 40
2.10 本章小结 … 41

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值