Pretrain: TAIL: Task-specific Adapters for Imitation Learning with Large Pretrained Models
TAIL使用预训练的CLIP实现语言指令编码(instruction encoder)以及图像数据的空间编码(spatial encoder),并通过一个input fusion model将二者融合,实更好的指令跟随能力。完成上述步骤,TAIL提出使用一个额外的小参数量的、可被优化的插件adapter,联合参数冻结的预训练模型进行微调。结构如图Fig1(b)的最下方的结构。(2)adapter结合预训练的参数模型,采用BC损失函数训练优化adapter,此时需要冻结预训练模型的参数。
原创
2024-03-12 14:48:11 ·
703 阅读 ·
0 评论