模型:看上出很简单,就是利用了bert的模型,输入输出不仅仅是文本,将视频和文本相结合一起自监督训练,不仅可以得到单文本或者单视频内部的关系,还可以得到文本和视频的对应关系。
文中强调了学习的是一种high-level的语义,和之前的视频表征学习不同,使用了三个现成的方法,ASR语音转文字(Youtube自带的一个API接口)、vector quantization(VQ)将视频转化为visual words和bert模型。主要贡献就是提出了这么一种自监督训练视频特征的方法。
这里的输入前面的CLS是一个标志位,标志了输入的是两段东西(这里难道说没有CLS就是输入的一段?也就是说单独模态和双模态混合训练?而且这里的输入输出的长度是怎么控制的呢?遇到SEP就停止这样吗?)
文中是利用SAR将视频语音转成文字
在使用mask的时候,先在text中设置mask,然后通过一种启发式的思想,简单的根据声音文字的时间定位到相应的视频片段,这样就找到了语义上大致符合的视频帧
文本处理:使用ASR语音转文本单词之后,使用一个现有的LSTM语言模型添加标点符号,后面的处理和bert中相同。字典使用和bert相同的字典,含有30000 tokens。
视频处理:在视频中以20fps采样(应该是每秒采样20帧),然后创建由30帧组成无重叠overlapping的clips,之后使用已有训练好的S3D模型提取视频特征,取最后一层线层分类器前面的激活值,通过3D平均池化得到1024维的特征向量。之后将特征向量利用层次K-means聚类,4层每层12类,一共12^4类,
这里需要向字典中添加视频单词的类目,通过上面层次k-means聚类之后,得到20736个类目初始化信息的中心,将它们放到查找字典中代表了visual words
4TPU上128 batch szie训练了2天。
在zero-shot action分类(zero意味着模型没有在目标数据集上训练并且没有和标数据集相同的label)、视频描述captions都进行了一定的实验。