2019_VideoBERT-A Joint Model for Video and Language Representation Learning_ICCV

模型:看上出很简单,就是利用了bert的模型,输入输出不仅仅是文本,将视频和文本相结合一起自监督训练,不仅可以得到单文本或者单视频内部的关系,还可以得到文本和视频的对应关系。

文中强调了学习的是一种high-level的语义,和之前的视频表征学习不同,使用了三个现成的方法,ASR语音转文字(Youtube自带的一个API接口)、vector quantization(VQ)将视频转化为visual words和bert模型。主要贡献就是提出了这么一种自监督训练视频特征的方法。

这里的输入前面的CLS是一个标志位,标志了输入的是两段东西(这里难道说没有CLS就是输入的一段?也就是说单独模态和双模态混合训练?而且这里的输入输出的长度是怎么控制的呢?遇到SEP就停止这样吗?)

文中是利用SAR将视频语音转成文字

在使用mask的时候,先在text中设置mask,然后通过一种启发式的思想,简单的根据声音文字的时间定位到相应的视频片段,这样就找到了语义上大致符合的视频帧

 

文本处理:使用ASR语音转文本单词之后,使用一个现有的LSTM语言模型添加标点符号,后面的处理和bert中相同。字典使用和bert相同的字典,含有30000 tokens。

 

视频处理:在视频中以20fps采样(应该是每秒采样20帧),然后创建由30帧组成无重叠overlapping的clips,之后使用已有训练好的S3D模型提取视频特征,取最后一层线层分类器前面的激活值,通过3D平均池化得到1024维的特征向量。之后将特征向量利用层次K-means聚类,4层每层12类,一共12^4类,

这里需要向字典中添加视频单词的类目,通过上面层次k-means聚类之后,得到20736个类目初始化信息的中心,将它们放到查找字典中代表了visual words

 

4TPU上128 batch szie训练了2天。

 

在zero-shot action分类(zero意味着模型没有在目标数据集上训练并且没有和标数据集相同的label)、视频描述captions都进行了一定的实验。

 

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值