论文笔记：Improving Video-Text Retrieval by Multi-Stream Corpus Alignment and Dual Softmax Loss

最新推荐文章于 2024-06-18 21:18:34 发布

李加贝_

最新推荐文章于 2024-06-18 21:18:34 发布

阅读量1k

点赞数

分类专栏：视频文本检索文章标签：自然语言处理深度学习人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_38990652/article/details/120964431

版权

视频文本检索专栏收录该内容

3 篇文章 1 订阅

订阅专栏

文本端：

使用预训练的part-of-speech tagging (POS) models来找出文本中的名词和动词，然后通过sentence generation strategy (SGS)转换成名词句子和动词句子，使用通过CLIP预训练得到的Bert将它们编码成语义特征

视频端：

采用通过CLIP预训练的Vit作为bottom feature提取器，Fusion，entity和action experts用来从bottom feature中学习特定的语义匹配

Sentence generation strategy.

recombining keywords (RKW),
averaging keywords embedding (AKWE),
masking unconsidered words (MUW),

Visual Frames Aggregation Scheme.

Mean pooling

Squeeze-and-Excitation attention(se attention)

Self-attention

Experts and Gating network.

Gating network 和fusion expert采用 se attention

Entity expert 和action expert采用self attention时，模型性能最好

作者发现，fusion expert的输出会导致在entity matching 和 action matching这两个任务中添加gate时，会过拟合，因此作者只在fusion expert中采用gating机制

Gate network：

Loss function.

Dual softmax loss是基于对称交叉熵损失函数的

原始的对称交叉熵损失：

其中，t分别表示sentence matching, entity matching, action matching，sim为余弦相似度

DSL，因此了先验来修正相似度分数

（这个先验矩阵其实就是交叉相似度，原始相似度计算的是vi和所有句子的相似度分数，先验矩阵计算的为si和所有视频的相似度分数）

Experiment

Ablation

通过引入先验概率矩阵，证明了交叉方向的约束可以修正部分边界分数

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
论文笔记：Improving Video-Text Retrieval by Multi-Stream Corpus Alignment and Dual Softmax Loss

文本端：使用预训练的part-of-speech tagging (POS) models来找出文本中的名词和动词，然后通过sentence generation strategy (SGS)转换成名词句子和动词句子，使用通过CLIP预训练得到的Bert将它们编码成语义特征视频端：采用通过CLIP预训练的Vit作为bottom feature提取器，Fusion，entity和action experts用来从bottom feature中学习特定的语义匹配Sentenc...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。