斯坦福CS234增强学习——(5)价值函数逼近
Introduction
VFA for Prediction
在计算机科学领域中,“Oracle” 通常指代一个具有特定知识或功能的程序、服务或系统,用于提供信息、答案或指导,例如数据库系统中的查询处理器、编程语言中的编译器等。如果按照上图所示,则我们可以通过SGD求解。
Linear Value Function Approximation
Monte Carlo VFA
Example
Convergence Guarantees
Batch Monte Carlo VFA
Temporal Difference VFA
Example
Convergence Guarantees
Control using Value Function Approximation
Converge
Example