斯坦福CS234——(5)价值函数逼近

在这里插入图片描述
在这里插入图片描述

Introduction

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

VFA for Prediction

在这里插入图片描述
在计算机科学领域中,“Oracle” 通常指代一个具有特定知识或功能的程序、服务或系统,用于提供信息、答案或指导,例如数据库系统中的查询处理器、编程语言中的编译器等。如果按照上图所示,则我们可以通过SGD求解。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

Linear Value Function Approximation

在这里插入图片描述

Monte Carlo VFA

在这里插入图片描述
在这里插入图片描述

Example

在这里插入图片描述

Convergence Guarantees

在这里插入图片描述
在这里插入图片描述

Batch Monte Carlo VFA

在这里插入图片描述

Temporal Difference VFA

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

Example

在这里插入图片描述

Convergence Guarantees

在这里插入图片描述

Control using Value Function Approximation

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

Converge

在这里插入图片描述

Example

在这里插入图片描述
在这里插入图片描述

  • 5
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值