VoP: Text-Video Co-operative Prompt Tuning for Cross-Modal Retrieval

最新推荐文章于 2024-05-03 05:07:06 发布

二苏旧局吖

最新推荐文章于 2024-05-03 05:07:06 发布

阅读量187

点赞数

文章标签： prompt 计算机视觉

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_37246721/article/details/131925254

版权

一、研究背景
（1）文本-视频检索工作需要额外的模块对预训练模型进行微调，这会引入更多参数并增加计算负担；
（2）用于微调的数据量过低还会造成原有模型的知识遗忘，带来过拟合风险；
（3）现有prompt工作具有局限性：
仅让文本分支学习prompt忽略了文本-视觉编码器协同微调的作用；
仅对输入层进行prompt对输出嵌入只有间接影响；

二、研究目标
引入prompt tuning，提高模型泛化性；
prompt tuning：冻结主干网络参数，只在输入前微调少量额外参数。

三、技术路线
（1）提出VoP作为baseline，仅用训练少量参数就可将CLIP用于文本-视频检索；

（2）同时为视频和文本编码器引入 prompts，即Co-operative Prompt；
证实对所有编码器的每一层准备prompt可以更好地实现微调；

（3）探索视频prompt，使VoP综合更多帧的时空信息；
视频理解需要同时汇总时空信息；
基于视频特性，建立三种视频促进机制，对帧位置（聚合同一帧内的信息）、帧内容（聚合上下文信息到帧内）、层功能进行建模（自适应地协助学习帧内或帧间的亲和关系）

四、实验结果
在这里插入图片描述

二苏旧局吖

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
VoP: Text-Video Co-operative Prompt Tuning for Cross-Modal Retrieval

基于视频特性，建立三种视频促进机制，对帧位置（聚合同一帧内的信息）、帧内容（聚合上下文信息到帧内）、层功能进行建模（自适应地协助学习帧内或帧间的亲和关系）（1）文本-视频检索工作需要额外的模块对预训练模型进行微调，这会引入更多参数并增加计算负担；（2）同时为视频和文本编码器引入 prompts，即Co-operative Prompt；（2）用于微调的数据量过低还会造成原有模型的知识遗忘，带来过拟合风险；（3）探索视频prompt，使VoP综合更多帧的时空信息；视频理解需要同时汇总时空信息；
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

二苏旧局吖 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。