论文阅读 | VideoBERT: A Joint Model for Video and Language Representation Learning

最新推荐文章于 2024-06-19 01:17:00 发布

WinneChan

最新推荐文章于 2024-06-19 01:17:00 发布

阅读量1.4k

点赞数

分类专栏：论文阅读文章标签：人工智能深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u013342586/article/details/113729244

版权

论文阅读专栏收录该内容

2 篇文章 0 订阅

订阅专栏

1. 论文链接：https://arxiv.org/abs/1904.01766v2

2. 论文分类：视频和自然语言特征联合学习，自监督

3. 论文目的：利用BERT学习视频序列 x 和语音文本 y 的联合分布 p(x,y)

4. 论文应用：

（1）text-to-video prediction / text-to-video generation
在这里插入图片描述
（2）video future forcasting

（3）video-to-text
在这里插入图片描述

5. 论文算法

在这里插入图片描述

主要过程：将random mask的文本token和视觉token拼接在一起输入到BERT网络中，预测mask掉的token（单模态任务mask-completion），以及判断两者是否align（跨模态任务linguistic-visual alignment）。

需要解决的问题：文本单词token是离散的，而视觉特征本身是连续的，如何才能把两者一起输入到网络？文章作者利用了层次聚类的方法对连续视觉特征进行离散化（vector quantization），用类标表示对应的视觉特征，得到离散的视觉token，这个token更关注高层次语义和长范围时序动态而不是底层的texture和结构。

6. 论文实验

数据集：作者自己收集的一个312K关于cooking和recipe的数据集用于预训练，利用ASR（automatic speech recognition）技术提取视频中的语音文本，在YouCook II dataset进行下游任务的评估。

特征及预处理：视频特征利用S3D提取，利用k-means对视频特征进行层次聚类，将每个视频对应的类标作为量化token。

预训练过程：BERT_large来初始化，把视频聚类的类标加到BERT原始的token后面，用聚类的类中心向量作为其embedding的初始化，进行两个单模态任务和一个跨模态任务的训练。

评估任务：

（1）zero-shot action classification（这里的zero-shot模型没有在目标数据集上面进行训练且与目标训练数据集没有相同的标签）：给定视觉token和固定文本模板“now let me show you how to [MASK] the [MASK]”，预测mask掉的词（动词和名词）。

（2）Transfer learning for captioning：为了提取视频特征，和一个文本模板一同输入网络“now let’s [MASK] the [MASK] to the [MASK], and then [MASK] the [MASK].”，把得到的视觉token的特征和mask掉的词特征进行分别进行average pooling然后拼在一起，用于captioning。

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。