视频文本检索
文章平均质量分 82
李加贝_
这个作者很懒,什么都没留下…
展开
-
论文阅读(21 AAAI)Mind-the-Gap Unsupervised Domain Adaptation for Text-Video Retrieval
Task: 视频文本检索Setting:Unsupervised Domain Adaptation所使用的数据集:ActivityNet-Captions、MSR-VTT、LSMDC、MSVD经验风险最小化面临着两种类型的domain shiftvideo content/style shift description distribution shift(通常是由产生每个域的注释者团队之间的描述风格的差异所驱动的)作者提出了conceptAware-Pseudo-Qu原创 2021-11-19 09:41:36 · 442 阅读 · 0 评论 -
论文阅读:CLIP2Video: Mastering Video-Text Retrieval via Image CLIP
动机:之前的大多都是试图从大规模的视频文本数据集中提取视频的时空特征以及视频和语言之间的多模式交互,作者将在图像语言中预训练的模型迁移到视频文本检索任务中,而之前这种使用这种方式的工作大多都是基于证明这种迁移学习是有效的,以验证CLIP模型在预训练中的效果。作者进一步研究了如何利用已有的显著的图像预训练模型,更好地建模视频帧与视频文本之间的时间依赖性。由于CLIP模型在图像文本上旨在建模空间关系,而视频相比图像多了时间维度,因此作者进一步提出了TDB和TAB来探索时间关系Temporal D原创 2021-11-08 16:27:37 · 1482 阅读 · 0 评论 -
论文笔记:Improving Video-Text Retrieval by Multi-Stream Corpus Alignment and Dual Softmax Loss
文本端:使用预训练的part-of-speech tagging (POS) models来找出文本中的名词和动词,然后通过sentence generation strategy (SGS)转换成名词句子和动词句子,使用通过CLIP预训练得到的Bert将它们编码成语义特征视频端:采用通过CLIP预训练的Vit作为bottom feature提取器,Fusion,entity和action experts用来从bottom feature中学习特定的语义匹配Sentenc...原创 2021-10-26 08:16:38 · 1064 阅读 · 0 评论