VoP: Text-Video Co-operative Prompt Tuning for Cross-Modal Retrieval

一、研究背景
(1)文本-视频检索工作需要额外的模块对预训练模型进行微调,这会引入更多参数并增加计算负担;
(2)用于微调的数据量过低还会造成原有模型的知识遗忘,带来过拟合风险;
(3)现有prompt工作具有局限性:
仅让文本分支学习prompt忽略了文本-视觉编码器协同微调的作用;
仅对输入层进行prompt对输出嵌入只有间接影响;

二、研究目标
引入prompt tuning,提高模型泛化性;
prompt tuning:冻结主干网络参数,只在输入前微调少量额外参数。

三、技术路线
(1)提出VoP作为baseline,仅用训练少量参数就可将CLIP用于文本-视频检索;

(2)同时为视频和文本编码器引入 prompts,即Co-operative Prompt;
证实对所有编码器的每一层准备prompt可以更好地实现微调;

(3)探索视频prompt,使VoP综合更多帧的时空信息;
视频理解需要同时汇总时空信息;
基于视频特性,建立三种视频促进机制,对帧位置(聚合同一帧内的信息)、帧内容(聚合上下文信息到帧内)、层功能进行建模(自适应地协助学习帧内或帧间的亲和关系)

四、实验结果
在这里插入图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

二苏旧局吖

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值