论文笔记：Universal Value Function Approximators

UQI-LIUWJ

已于 2022-06-29 09:52:38 修改

阅读量717

点赞数

分类专栏：论文笔记文章标签：强化学习

于 2022-06-27 20:09:15 首次发布

本文链接：https://blog.csdn.net/qq_40206371/article/details/125484646

版权

论文笔记专栏收录该内容

253 篇文章 61 订阅

订阅专栏

ICML 2015

1 介绍

这篇paper提出了UVFA（universal value function approximators)，这是根据state（其他的value function也有的部分）和goal（其他的value function没有的部分）来估计期望收益 $V(s,g;\theta)$

学习UVFA的挑战在于，一般来说agent只会看到很小一部分的(s,g)组合，不可能遍历到所有的state-goal对。如果用监督学习来训练 $V_g(s)$ ，那么也很有可能因为数据量不足而欠拟合，成为一个困难的回归问题。

这里UVFA使用了类似于矩阵分解的方法，将数据看作一个稀疏矩阵，每一行是一个观测到的state s，每一列是一个观测到的目标 g。然后将矩阵分解成状态embedding Φ(s)和目标embedding φ(g)。

——>于是可以分别学习从state到Φ(s)；goal到φ(g)的非线性mapping

2 模型部分

two-stream architecture可以很好地学习到state和goal之间的共同结构

在很多情况下，goal都可以定义成state的形式/state的组合,。因而Φ和φ之间应该有一些可以共享的feature。
- 这篇论文在MLP Φ和φ中，前几层的参数是共享的，所以state和goal共同的feature就能被学习到了
- ——>partially symmetric architecture
在有些情况下，UVFA可能是对称的
- 比如计算state s 和goal g之间距离的UVFA
- 此时我们可以令Φ=φ，h是一个对称的算子（比如点积）
- ——>symmetric architecture

2.1 监督学习UVFA

2.1.1 端到端学习

通过一个合适的loss function（比如MSE $E[(v^*_g(s)-v(s,g;\theta))^2]$ )+梯度下降实现

2.1.2 two-stage 学习

stage1：将V*(g)放到一个矩阵中，行表示state，列表示goal。进行矩阵分解，得到 $\hat{\phi_s}$ 和 $\hat{\varphi_g}$ 【图1 第三张图的右半部分】
stage2：将 $\hat{\phi_s}$ 和 $\hat{\varphi_g}$ 作为ground-truth，学习Φs和φg 【图1 第三张图的左半部分】

2.2 强化学习UVFA

强化学习的话，就没有ground-truth V*(g)了，得通过一些方式求得Q-value

文中使用一种Horde 架构的方式可以产生不同目标对应的Q-value，那篇paper没有看，不过用bootstriping（TD）的话，结果上来说是差不多的【TD的话会稍微不稳定一些】

【注意一点：具体这个goal是怎么取的，文章中还是没说】

【到第10步，Q-value算出来之后，和强化学习就没太大的关系了，后面几步就是矩阵分解+两个embedding network的training】

UQI-LIUWJ

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
打赏
0
评论
论文笔记：Universal Value Function Approximators

PMLR 2015 这篇paper提出了UVFA（universal value function approximators)，这是根据state（其他的value function也有的部分）和goal（其他的value function没有的部分）来估计期望收益我们考虑一个马尔可夫决策过程，其中状态集，动作集，记转换方程为：对于任何目标，我们定义reward function和折扣因子方程对每个策略和目标g，我们定义state-value function和action-valu
复制链接

扫一扫