1.1 强化学习
1.2 实例
1.3 强化学习的元素 (Elements of RL)
1.4 限制和范围 (Limitations and Scope)
1.5 扩展实例： Tic-Tac-Toe（三连棋游戏）
两人轮流在印有九格方盘上划“+”或“O”字, 谁先把三个同一记号排成横线、直线、斜线, 即是胜者
1.6 总结
1.7 强化学习的早期历史

I 基于表格解的学习方法（Tabular Solution Methods）

2 多臂老虎机（Multi-armed Bandits）

2.1 k臂老虎机问题 (A k-armed Bandit Problem)
2.2 动作-值方法 (Action-value Methods)
2.3 10臂测试床 (The 10-armed Testbed)
testbed是软件测试的特定软件、硬件环境；例如Arena浏览器就可以作为测试CSS，html代码的TestBed
2.4 增值实现 (Incremental Implementation)
2.5 跟踪一个不稳定问题 (Tracking a Nonstationary Problem)
2.6 乐观初始值 (Optimistic Initial Values)
2.7 上置信界的动作选择 (Upper-Confidence-Bound Action Section)
2.8 梯度老虎机算法 (Gradient Bandit Algorithms)
2.9 相关搜索（上下文老虎机）(Associative Search (Contextual Bandits))
2.10 总结

3 有限马尔科夫过程 (Finite Markov Decision Processes)

3.1 环境-智能体界面 (The Agent-Environment Interface)
3.2 分数与奖励 (Goals and Rewards)
3.3 返回与片段 (Returns and Episodes)
3.4 关于片段化的连续性任务的统一记号 (Unified Notation for Episodic and Continuing Tasks)
3.5 策略和值函数 (Policies and Value Functions)
3.6 最优策略和最优值函数 (Optimal Policies and Optimal Value Functions)
3.7 最优化和估计
3.8 总结

4 动态规划 (Dynamic Programming)

4.1 策略评估（预测） (Policy Evaluation (Prediction))
4.2 策略增强 (Policy Improvement)
4.3 策略迭代 (Policy Iteration)
4.4 值迭代 (Value Iteration)
4.5 异步动态规划 (Asynchronous Dynamic Programming)
4.6 广义动态规划 (Generalized Policy Iteration)
4.7 动态规划的效率 (Efficiency of Dynamic Programming)
4.8 总结

5 蒙特卡罗方法 (Monte Carlo Methods)

5.1 蒙特卡罗预测 (Monte Carlo Prediction)
5.2 对于动作值的蒙特卡罗估计 (Monte Carlo Estimation of Action Values)
5.3 蒙特卡罗控制 (Monte Carlo Control)
5.4 初始阶段不进行探索的蒙特卡罗控制 (Monte Carlo Control without Exploring Starts)
5.5 通过重要性采样进行离线策略预测 (Off-policy Prediction via Importance Sampling)
重要性采样：使用另外一种分布来逼近所求分布一种方法。
5.6 增值实现 (Incremental Implementation)
5.7 离线策略的蒙特卡罗控制 (Off-policy Monte Carlo Control)
*5.8 折扣感知的重要性采样 (Discounting-aware Importance Sampling)
*5.9 每次决策的重要性采样 (Per-decision Importance Sampling)
5.10 总结

6 时序差分算法 (Temporal-Difference Learning)

6.1 时序差分预测 (TD Prediction)
6.2 时序差分预测算法的优势 (Advantages of TD Prediction Methods)
6.3 TD(0)的优化
6.4 Sarsa：在线策略的时序差分控制 (Sarsa: On-policy TD Control)
6.5 Q学习：离线策略的时序差分控制 (Q-learning: Off-policy TD Control)
      笔记： Sarsa是在线的；Q-learning是离线的，一般是一个片段(episode)完成之后在进行计算。
6.6 期望Sarsa (Expected Sarsa)
6.7 最大化偏置和双学习 (Maximization Bias and Double Learning)
      ➀ 在最开始的 Double Q-learning算法中，通过随机的赋予每一个 experience 来更新两个value functions中的一个，来学习两个value function，如此，就得到两个权重的集合，θ 以及 θ′。对于每一次更新，其中一个权重集合用来决定贪婪策略，另一个用来决定其 value。
       ➁ 在标准的 Q-learning 以及 DQN 上的 max operator，用相同的值来选择和评价一个 action。这使得其更偏向于选择 overestimated values，导致次优的估计值。为了防止此现象，我们可以从评价中将选择独立出来，这就是 Double Q-learning 背后的 idea。
      笔记： 双学习就是将选择和评估分开的学习算法，有效避免了过拟合问题
6.8 游戏、状态和其他情况 (Games, Afterstates, and Other Special Cases)
       agent采取了某个动作之后得到状态以及状态值，称这个状态为afterstates
6.9 总结

7 n步自助法 (n-step Bootstrapping)

Bootstrapping: 利用有限的样本资料进行多次重复抽样，重新建立起足以代表母体样本分布的新样本。
7.1 n步时序差分预测 (n-step TD Prediction)
7.2 n步Sarsa (n-step Sarsa)
7.3 n步离线策略学习 (n-step Off-policy Learning)
*7.4 有控制变量的每次决策方法 (Per-decision Methods With Control Variates)
7.5 缺失重要采样的离线学习：n步树备份算法 (Off-policy Learning Without Importance Sampling: : The n-step Tree Backup Algorithm)
*7.6 统一的算法：n步Q(σ) (n-step Q(σ))
7.7 总结

8 使用表格方法来规划和学习

8.1 模型与设计 (Models and Planning)
8.2 动力学：综合规划，实施和学习 (Dyna: Integrated Planning, Acting, and Learning)
8.3 模型错误 (When the Model Is Wrong)
8.4 优先扫描 (Prioritized Sweeping)
基本思想：根据紧急程度进行优先性排序。
8.5 期望更新 vs. 样本集更新 (Expected vs. Sample Updates)
8.6 轨迹采样 (Trajectory Sampling)
8.7 实时动态规划 (Real-time Dynamic Programming)
8.8 决策时刻的规划 (Planning at Decision Time)
8.9 启发式搜索 (Heuristic Search)
8.10 走子算法 (Rollout Algorithm)
Rollout源自象棋走子，在CS相关论文中，一般rollout表示一次试验，一条轨迹。就比如我们我们用MC仿真出了一个episode，这个episode就是一个rollout。
8.11 蒙特卡罗树搜索 (Monte Carlo Tree Search)
8.12 本章总结
8.13 第一部分总结：维度 (Summary of Part I: Dimensions)

Ⅱ 解估计方法 (Approximate Solution Methods)

9 使用估计的在线预测 (On-policy Prediction with Approximation)

9.1 值函数估计 (Value-function Approximation)
9.2 预测目标 (The Prediction Objective ( $\overline{VE}$ ))
9.3 随机梯度方法和半梯度方法 (Stochastic-gradient and Semi-gradient Methods)
9.4 线性方法 (Linear Methods)
9.5 线性方法的特征构造 (Feature Construction for Linear Methods)
   9.5.1 多项式 (Polynomials)
   9.5.2 傅里叶基 (Fourier Bias)
   9.5.3 粗糙编码 (Coarse Coding)
       定义：使用重叠的特征表示状态(例如0-1)，称为粗糙编码。例如交叠的圆

   9.5.4 分区编码 (Tile Coding)
      在Tile Coding中，特征的receptive field（感受野）作为输入空间的一个分区。每个分区称为tiling，分区里面的元素称为tile。
在这里插入图片描述
   9.5.5 径向基函数 (Radial Basis Functions)
9.6 手动选择步长参数 (Selecting Step-Size Parameters Manually)
9.7 非线性函数估计：人工神经网络 (Nonlinear Function Approximation: Artificial Neural Networks)
9.8 最小二乘的时序差分 (Least-Squares TD)
9.9 基于记忆的函数估计 (Memory-based Function Approximation)
9.10 基于核的函数估计 (Kernel-based Function Approximation)
9.11 深入研究在线策略学习：兴趣和重点 (Looking Deeper at On-policy Learning: Interest and Emphasis)
9.12 总结

10 不使用估计的在线策略控制 (On-policy Control with Approximation)

10.1 片段化半梯度控制 (Episodic Semi-gradient Control)
10.2 半梯度n步Sarsa (Semi-gradient n-step Sarsa)
10.3 平均奖励：一个新的关于连续性任务的问题设置 (A New Problem Setting for Continuing Tasks)
10.4 取消折扣设置 (Deprecating the Discounted Setting)
10.5 微分半梯度n步Sarsa (Differential Semi-gradient n-step Sarsa)
?(存疑)
10.6 总结

**11 使用估计的离线策略方法*

11.1 半梯度方法 (Semi-gradient Methods)
11.2 离线策略散度的例子 (Examples of Off-policy Divergence)
11.3 死亡三元素 (The Deadly Triad)
11.4 线性值函数的几何模型 (Linear Value-function Geometry)
11.5 Bellman误差的梯度下降法 (Gradient Descent in the Bellman Error)
11.6 Bellman误差不可学习 (The Bellman Error is Not Learnable)
11.7 梯度时序差分方法 (Gradient-TD Methods)
11.8 加强时序差分方法 (Emphatic-TD Methods)
11.9 缩减方差 (Reducing Variance)
11.10 总结

12 资格迹

12.1 λ返回值 (The λ-return)
12.2 TD(λ)
12.3 n步衰减的λ返回值方法 (n-step Truncated λ-return Methods)
12.4 改进的更新方法：在线λ返回值算法 (Redoing Updates: Online λ-return Algorithm)
12.5 真实的在线TD(λ) (True Online TD(λ))
*12.6 Dutch Traces in Monte Carlo Learning
12.7 Sarsa(λ)
12.8 变量λ和γ
*12.9 使用控制变量的离线策略迹 (Off-policy Traces with Control Learning)
12.10 对于树备份(λ)的Watkins’s Q(λ) (Watkins’s Q(λ) to Tree-Backup(λ))
12.11 使用迹的稳定离线策略方法 (Stable Off-policy Methods with Traces)
12.12 方案实行 (Implementation Issues)
12.13 结论

13 策略梯度方法

13.1 策略估计与优势 (Policy Approximation and its Advantages)
13.2 策略梯度理论 (The Policy Gradient Theorem)
13.3 强化学习：蒙特卡罗策略梯度 (REINFORCE: Monte Carlo Policy Gradient)
13.4 使用基准的强化学习 (REINFORCE with Baseline)
      ?(存疑)
13.5 策略-价值方法 (Actor-Critic Methods)
      ① "Actor-Critic"算法可以认为是一种框架或一类算法，具有参数化的"Actor"与"Critic"两个组件。
        ② Actor组件，是以θ为参数的策略函数 $\pi_{\theta}(a|s)$ ，是agent行动的依据。
        ③ Critic组件，是一个值函数，在训练(或说学习)过程中指导Actor。通常Critic组件可以是状态价值函数(state value)，状态-行为价值函数(state-action value)或者优势函数(advantage value)，分别记为 $V_{s}$ ， $Q (s, a)$ 和 $A (s, a)$ 。
13.6 对于连续性问题的策略梯度 (Policy Gradient for Continuing Problems)
13.7 对于连续性动作的策略参数化 (Policy Parameterization for Continuous Actions)
13.8 总结

Ⅲ 深入探究

14 心理学 (Psychology)

14.1 预测和控制 (Prediction and Control)
14.2 经典条件 (Classical Conditioning)
   14.2.1 阻塞条件和高阶条件
      ?(存疑)
   14.2.2 The Rescorla-Wagner Model
   14.2.3 时序差分模型 (The TD Model)
   14.2.4 时序差分模型的仿真 (TD Model Simulations)
14.3 工具性条件反射 (Instrumental Conditioning)
14.4 时延强化学习 (Delayed Reinforcement)
14.5 认知地图 (Cognitive Maps)
14.6 总结

15 神经科学 (Neuroscience)

15.1 神经科学基础 (Neuroscience Basics)
15.2 奖励信号，强化学习信号，变量和预测误差 (Reward Signals, Reinforcement Signals, Values and Prediction Errors)
15.3 奖励预测误差假设 (The Reward Prediction Error Hypothesis)
15.4 多巴胺 (Dopamine)
15.5 奖励预测误差假设的实验支撑 (Experimental Support for the Reward Prediction Error Hypothesis)
15.6 时序差分误差与多巴胺的联系 (TD Error/Dopamine Correspondence)
15.7 神经元的策略-价值方法 (Neural Actor-Critic)
15.8 策略和价值学习算法 (Actor and Critic Learning Rules)
15.9 享乐主义神经元 (Hedonistic Neurons)
?(存疑)
15.10 集体强化学习 (Collective Reinforcement Learning)
15.11 人脑中基于模型的方法 (Model-based Methods in the Brain)
15.12 令人着迷 (Addiction)
15.13 总结

16 应用程序和案例 (Applications and Case Studies)

16.1 TD-Gammon
      西洋双陆棋游戏程序TD-Gammon
16.2 Samuel’s Checkere Player
      棋盘手小游戏
16.3 Watson’s Daily-Double Wagering
      每日双倍下注小游戏
16.4 最优记忆控制 (Optimizing Memory Control)
16.5 人类水平的视频游戏玩法 (Human-level Video Game Play)
16.6 征服围棋 (Mastering the Game of Go)
   16.6.1 AlphaGo
   16.6.2 AlphaGo Zero
16.7 定制化万维网服务 (Personalized Web Services)
16.8 上升热气流 (Themal Soaring)

17 展望

17.1 通用值函数和辅助任务 (General Value Functions and Auxiliary Tasks)
17.2 通过选择的时间提取 (Temporal Abstraction via Options)
17.3 观测与状态 (Observations and States)
17.4 设计奖励信号 (Designing Reward Signals)
17.5 遗留问题 (Remaining Issues)
17.6 人工智能的未来 (The Future of Artificial Intelligence)