关于多任务的decision transformer

最新推荐文章于 2024-04-08 10:30:45 发布

SRTTTTT

最新推荐文章于 2024-04-08 10:30:45 发布

阅读量216

点赞数

文章标签： transformer 深度学习人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_51003458/article/details/126744790

版权

整体的目标是

修改好代码实现GPT在多个数据集的训练

了解数据集结构D4RL

pkl文件

了解GPT的结构

The Illustrated Transformer
在这里插入图片描述
GPT为纵向堆叠了12层decoder而成
GPT-2 就像传统的语言模型一样，一次只输出一个单词（token）

在这里插入图片描述

masked self-attention这里的mask指的是sequence mask

这里需要注意的一点很重要的事，transformer很重要的一点是，图中的纵向的线条都是并行的，但是注意一下GPT的输出是单个的字符，并不一定指的是原有的sequence的后面，可以是任何的东西。
当然如果有L2loss放在输出和下一个词语的时候，用于监督学习的时候，确实可以是学到后面的东西的。

在这里插入图片描述

每一层的decoder block都是一个masked self-attention 和一个feed forward neural network
详细的内容见

http://jalammar.github.io/illustrated-gpt2/

在这里插入图片描述

关于attention mask

了解训练的模式

用expermient的get batch 得到
值得注意的是，act_dim和state_dim是根据env而变化
这里主要计划是看一下prompt dt的解决方法

设计训练的逻辑和代码

训练代码并进行数据对比

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
关于多任务的decision transformer

修改好代码实现GPT在多个数据集的训练。
复制链接

扫一扫

SRTTTTT CSDN认证博客专家 CSDN认证企业博客

码龄4年

6: 原创

157万+: 周排名

56万+: 总排名

4172: 访问

: 等级

65: 积分

11: 粉丝

2: 获赞

2: 评论

8: 收藏

私信

关注

热门文章

分类专栏

强化学习笔记

最新评论

D4RL的踩坑记录
ChuckieZhu: 请问一下，d4rl怎么加载gym版本的离线数据。比如halfcheetah的obs的维度是17，而d4rl中的维度是26，我试了好久去加载那个17维的，都不太行。。
dataframe multi index
CSDN-Ada助手: 恭喜您写了第6篇博客！标题为“dataframe multi index”，看起来很有深度和挑战性。您对多级索引的讨论一定能为读者提供宝贵的知识。希望您能继续保持创作的热情和努力，为我们带来更多有关数据框多级索引的内容。同时，如果可能的话，我建议您在下一篇博客中可以深入探讨一些实际案例，以及如何高效地处理和操作多级索引数据。这样更多的读者能够从您的经验中受益。再次恭喜您，期待您的下一篇博客！

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。