【多模态检索】Coarse-to-Fine Visual Representation

最新推荐文章于 2024-09-10 17:37:13 发布

置顶

vivid_blog

最新推荐文章于 2024-09-10 17:37:13 发布

阅读量1.4k

点赞数 9

文章标签：深度学习人工智能机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_42018581/article/details/137746155

版权

本文提出了一种利用多粒度视觉特征和两阶段检索框架的文本到视频检索方法，通过Text-GatedInteractionBlock学习细致的视觉表示并优化跨模态表示，旨在提高检索速度与准确性。研究对比了原始图像文本匹配任务，强调了在效率与效果之间取得平衡的重要性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

快手文本视频多模态检索论文

论文：Towards Efficient and Effective Text-to-Video Retrieval with Coarse-to-Fine Visual Representation Learning
链接：https://arxiv.org/abs/2401.00701

摘要

近些年，基于CLIP的text-to-video检索方法广为流行，但大多从视觉文本对齐方法上演进。按照原文：design a heavy fusion block for sentence (words)-video (frames) interaction，而忽视了复杂度和检索效率。

升级点
本文采用多粒度视觉特征学习，捕获从抽象到具体的视觉内容。Multi-granularity visual feature learning, ensuring the model’s comprehensiveness in capturing visual content features spanning from abstract to detailed levels during the training phase.
设计两阶段检索框架，优点在于 balances the coarse and fine granularity of retrieval content.
- 在训练阶段，设计一个parameter-free text-gated interaction block (TIB) 模块用于细粒度视觉表征学习并嵌入一个额外的 Pearson Constraint来优化跨模态表示学习。
- 在检索阶段，使用粗粒度视觉表征快速检索topk结果ÿ

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。