Decision Transformer 前沿追踪——万物皆可归于序列预测

最新推荐文章于 2024-05-24 11:10:17 发布

OpenDILab开源决策智能平台

最新推荐文章于 2024-05-24 11:10:17 发布

阅读量2.4k

点赞数 1

分类专栏： OpenDILab 文章标签： transformer 深度学习人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_55289267/article/details/126354071

版权

引言

如果想要将强化学习技术应用在某个决策领域，最重要的就是将原始问题转换为一个合理的 MDP （马尔科夫决策过程）问题，而一旦问题环境本身有一些不那么友好的”特性“（比如部分可观测，非平稳过程等等），常规强化学习方法的效果便可能大打折扣。另一方面，随着近些年来数据驱动范式的发展，大数据和预训练大模型在计算机视觉（Computer Vision）和自然语言处理（Natural Language Processing）领域大放异彩，比如 CLIP，DALL·E 和 GPT-3 等工作都取得了惊人的效果，序列预测技术便是其中的核心模块之一。但对于决策智能，尤其是强化学习（Reinforcement Learning），由于缺少类似 CV 和 NLP 中的大数据集和适合的预训练任务，决策大模型迟迟没有进展。

在这样的背景下，为了推进决策大模型的发展，提高相关技术的实际落地价值，许多研究者开始关注 Offline RL/Batch RL 这一子领域。具体来说，Offline RL是一种只通过离线数据集（Offline dataset）训练策略（Policy），在训练过程中不与环境交互的强化学习任务。那对于这样的任务，是否可以借鉴 CV 和 NLP 领域的一些研究成果，比如序列预测相关技术呢？

于是乎，在2021年，以 Decision Transformer[3]/Trajectory Transformer[1-2]为代表的一系列工作出现了，试图将决策问题归于序列预测

最低0.47元/天解锁文章

OpenDILab开源决策智能平台

关注

1
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
Decision Transformer 前沿追踪——万物皆可归于序列预测

DT（Decision Transformer）将 RL 看做一个序列建模问题（Sequence Modeling Problem），不同于传统 RL 方法的建模方法， DT 使用 Transformer 网络直接输出动作（Action）进行决策，从而避免了在 Offline RL 问题中显式的马尔可夫过程建模问题和数据 OOD（Out-of-distribution）导致的 Q-value 过估计问题。...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。