【深度】Dual Representation | 强化学习前沿

最新推荐文章于 2024-05-09 16:32:54 发布

九三智能控v

最新推荐文章于 2024-05-09 16:32:54 发布

阅读量1k

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u9Oo9xkM169LeLDR84/article/details/93147193

版权

今天，你AI了没？

关注：决策智能与机器学习，学点AI干货

对偶理论是研究线性规划中原始问题与对偶问题之间关系的理论。对偶形式是解决优化问题的一种有效办法，即每一个线性规划问题（称为原始问题）有一个与它对应的对偶线性规划问题（称为对偶问题），在求出一个问题解的同时，也给出了另一个问题的解。可以说是优化求解中四两拨千斤的方法。

本文讨论的就是强化学习问题的对偶形式求解问题。

友情提示：技术深度解读，文中大量公式，公式恐惧症的同学慎入。

640?wx_fmt=jpeg

原文下载，请在公众号回复：20190620

特色

考虑找到MDP上的最优策略使得累积奖励最大，如果已知 dynamics（P）和 reward（R）那么该问题是一个动态规划问题（DP），又称作规划问题（planning problem）；如果这两者未知只能通过和环境交互得到，那么该问题是一个强化学习问题（RL），又称作学习问题（learning problem）。相应的动态规划问题可以表示为一个线性规划问题（LP，可以参见我导师的讲义），相应地，该问题就其对偶形式。前面讲到的 successor representation （SR）就实际上是在解相应的对偶问题。本文给出了 DP 和 RL 问题的相应对偶形式，具体地，给出了对偶形式的 policy evaluation、policy iteration、TD evaluation、SARSA、Q-learning。

过程

这篇文章都是矩阵-向量表示形式，需要注意符号定义，特别是维度。

1. 线性规划及其对偶问题

考虑一个规划问题，它可以写为 LP 的形式

640?wx_fmt=png

其中 640?wx_fmt=svg 是初始状态分布，，，。要证明它的解是规划问题的解，只需要证明相应的满足 Bellman equation 。对于任意一个状态

最低0.47元/天解锁文章

九三智能控v

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
【深度】Dual Representation | 强化学习前沿

今天，你AI了没？关注：决策智能与机器学习，学点AI干货对偶理论是研究线性规划中原始问题与对偶问题之间关系的理论。对偶形式是解决优化问题的一种有效办法，即每一个线性规划...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。