整体的目标是
修改好代码实现GPT在多个数据集的训练
了解数据集结构D4RL
pkl文件
了解GPT的结构
The Illustrated Transformer
GPT为纵向堆叠了12层decoder而成
GPT-2 就像传统的语言模型一样,一次只输出一个单词(token)
masked self-attention这里的mask指的是sequence mask
这里需要注意的一点很重要的事,transformer很重要的一点是,图中的纵向的线条都是并行的,但是注意一下GPT的输出是单个的字符,并不一定指的是原有的sequence的后面,可以是任何的东西。
当然如果有L2loss放在输出和下一个词语的时候,用于监督学习的时候,确实可以是学到后面的东西的。
每一层的decoder block都是一个masked self-attention 和一个feed forward neural network
详细的内容见
http://jalammar.github.io/illustrated-gpt2/
关于attention mask
了解训练的模式
用expermient的get batch 得到
值得注意的是,act_dim和state_dim是根据env而变化
这里主要计划是看一下prompt dt的解决方法