论文浅尝 | 利用冻结语言模型的多模态少样本学习

该研究提出了一种名为Frozen的方法,将预训练的自回归语言模型与视觉编码器结合,用于多模态的few-shot学习。通过在视觉任务中使用视觉编码器产生的动态视觉prefix,模型能够有效利用预训练语言模型的先验知识。实验在VQA、OKVQA等数据集上展示了Frozen在快速任务适应、知识获取和概念绑定方面的优势。
摘要由CSDN通过智能技术生成

笔记整理 |  李磊,浙江大学硕士,研究方向为自然语言处理



链接:https://arxiv.org/abs/2106.13884

动机

大规模的自回归语言模型(如GPT)在预训练阶段学习到了大量的知识,具有很好的学习新任务的能力,给定几个“任务示例”,模型可以很快的学习到任务形式并回答新问题,但这种能力仅限于文本领域。

Prompt tuning通过添加提示信息,充分挖掘预训练语言模型蕴含的知识,在few-shot场景下取得了良好的效果。

作者提出了Frozen, 利用Visual Encoder对图片进行编码,编码得到的结果作为prompt与文本一起送入语言模型中,试图将大规模语言模型和prompt应用于多模态领域。在VQA、OKVQA、miniImageNet等多个数据集的多模态few-shot场景下进行了实验,结果表明Frozen有效的利用了预训练语言模型的先验知识,具有很好的迁移学习能力、

模型结构

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值