论文浅尝 | 利用冻结语言模型的多模态少样本学习

最新推荐文章于 2024-05-14 20:45:49 发布

开放知识图谱

最新推荐文章于 2024-05-14 20:45:49 发布

阅读量616

点赞数

文章标签：算法机器学习人工智能深度学习计算机视觉

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/TgqDT3gGaMdkHasLZv/article/details/119988160

版权

该研究提出了一种名为Frozen的方法，将预训练的自回归语言模型与视觉编码器结合，用于多模态的few-shot学习。通过在视觉任务中使用视觉编码器产生的动态视觉prefix，模型能够有效利用预训练语言模型的先验知识。实验在VQA、OKVQA等数据集上展示了Frozen在快速任务适应、知识获取和概念绑定方面的优势。

摘要由CSDN通过智能技术生成

笔记整理 | 李磊，浙江大学硕士，研究方向为自然语言处理

链接：https://arxiv.org/abs/2106.13884

动机

大规模的自回归语言模型（如GPT）在预训练阶段学习到了大量的知识，具有很好的学习新任务的能力，给定几个“任务示例”，模型可以很快的学习到任务形式并回答新问题，但这种能力仅限于文本领域。

Prompt tuning通过添加提示信息，充分挖掘预训练语言模型蕴含的知识，在few-shot场景下取得了良好的效果。

作者提出了Frozen，利用Visual Encoder对图片进行编码，编码得到的结果作为prompt与文本一起送入语言模型中，试图将大规模语言模型和prompt应用于多模态领域。在VQA、OKVQA、miniImageNet等多个数据集的多模态few-shot场景下进行了实验，结果表明Frozen有效的利用了预训练语言模型的先验知识，具有很好的迁移学习能力、

模型结构

最低0.47元/天解锁文章

开放知识图谱

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
论文浅尝 | 利用冻结语言模型的多模态少样本学习

笔记整理 | 李磊，浙江大学硕士，研究方向为自然语言处理链接：https://arxiv.org/abs/2106.13884动机大规模的自回归语言模型（如GPT）在预训练阶段学习到了大...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。