1. 论文链接:https://arxiv.org/abs/1904.01766v2
2. 论文分类:视频和自然语言特征联合学习,自监督
3. 论文目的:利用BERT学习视频序列 x 和语音文本 y 的联合分布 p(x,y)
4. 论文应用:
(1)text-to-video prediction / text-to-video generation
(2)video future forcasting
(3)video-to-text
5. 论文算法
主要过程:将random mask的文本token和视觉token拼接在一起输入到BERT网络中,预测mask掉的token(单模态任务mask-completion),以及判断两者是否align(跨模态任务linguistic-visual alignment)。
需要解决的问题:文本单词token是离散的,而视觉特征本身是连续的,如何才能把两者一起输入到网络?文章作者利用了层次聚类的方法对连续视觉特征进行离散化(vector quantization),用类标表示对应的视觉特征,得到离散的视觉token,这个token更关注高层次语义和长范围时序动态而不是底层的texture和结构。
6. 论文实验
数据集:作者自己收集的一个312K关于cooking和recipe的数据集用于预训练,利用ASR(automatic speech recognition)技术提取视频中的语音文本,在YouCook II dataset进行下游任务的评估。
特征及预处理:视频特征利用S3D提取,利用k-means对视频特征进行层次聚类,将每个视频对应的类标作为量化token。
预训练过程:BERT_large来初始化,把视频聚类的类标加到BERT原始的token后面,用聚类的类中心向量作为其embedding的初始化,进行两个单模态任务和一个跨模态任务的训练。
评估任务:
(1)zero-shot action classification(这里的zero-shot模型没有在目标数据集上面进行训练且与目标训练数据集没有相同的标签):给定视觉token和固定文本模板“now let me show you how to [MASK] the [MASK]”,预测mask掉的词(动词和名词)。
(2)Transfer learning for captioning:为了提取视频特征,和一个文本模板一同输入网络“now let’s [MASK] the [MASK] to the [MASK], and then [MASK] the [MASK].”,把得到的视觉token的特征和mask掉的词特征进行分别进行average pooling然后拼在一起,用于captioning。