Reinforcement Learning: value function approximation

最新推荐文章于 2024-04-09 11:11:26 发布

Snail_Walker

最新推荐文章于 2024-04-09 11:11:26 发布

阅读量715

点赞数

分类专栏： __CMU_ECE_MS_PERIOD__ RL & DL & SLAM 文章标签：强化学习 value UCL

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/c602273091/article/details/78908021

版权

RL & DL & SLAM 同时被 2 个专栏收录

38 篇文章 5 订阅

订阅专栏

__CMU_ECE_MS_PERIOD__

36 篇文章 0 订阅

订阅专栏

introduction
incremental methods增量法
- - state value function with prediction approximation
  - action value function with control approximation
batch methods批处理

introduction

上一节讲到使用采样的方法进行，状态和action space都比较小的情况，现在对于超大规模状态和action的时候，就需要使用近似的方法，让没见过的state也有value，从已知的状态入手。

进行value function approximation的方法有：
这里写图片描述

输入state，输出approximation value
输入state and action，输出action value。
输入state，输出action value。

这种拟合可以使用线性拟合，神经网络，决策树，KNN，傅里叶/小波等等。为了进行更新权值w，一般采用可导的方法。

incremental methods（增量法）

state value function with prediction approximation

Gradient Descent：使用梯度下降的方法计算更新w的权值。这个就是和linear regression一样，找到最小化mean-squared error。使用stochastic GD通过采样来计算梯度。

这里面有涉及一个linear regression来拟合state value function，非常简单，就是linear regression一样进行更新权值。

Table Lookup Features：就是一个查找表，什么状态对应输出的feature的值应该是多少。然后w正好也是n个，对应n个state来表示。

incremental prediction algorithms：这个东西就比较简单了，就是在上面说到的linear regression的权值更新的地方的true value改成在不同方法下MC，TD(0)，TD( $\lambda$ )下的估计的value。

这里写图片描述

action value function with control approximation

拟合的目标是：
这里写图片描述

继续使用linear regression进行优化。针对把true action value替换成不同方法下估计的value可以得到不同方法下的迭代器：
这里写图片描述

batch methods（批处理）

对大规模的数据进行处理，更新权值。比如同时对T个samples进行处理，优化目标是least squares：
这里写图片描述

使用linear least square进行prediction的时候，因为是闭包的，所以可以直接计算w：
这里写图片描述

DQN：步骤如下：（还需要好好揣摩一下）
这里写图片描述

接下来分别对prediction和control在不同算法下如何计算w有了一系列的计算，这些东西只要真正码代码的时候才能有所感觉。这个slide就这样走马观花的过去，过了一遍再来一次，应该会有不一样的认识。

useful links:
[1] Lecture 5 Slide: http://www0.cs.ucl.ac.uk/staff/d.silver/web/Teaching_files/FA.pdf
[2] Ref BLOG: http://blog.csdn.net/mmc2015/article/details/52908908

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。