2019_VideoBERT-A Joint Model for Video and Language Representation Learning_ICCV

最新推荐文章于 2024-06-19 01:17:00 发布

Hym_eric

最新推荐文章于 2024-06-19 01:17:00 发布

阅读量312

点赞数

分类专栏：论文学习计算机视觉 # 表征学习文章标签：深度学习 video bert bert 表征学习自监督

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Hym_eric/article/details/118142980

版权

论文学习同时被 3 个专栏收录

6 篇文章 0 订阅

订阅专栏

计算机视觉

2 篇文章 0 订阅

订阅专栏

2 篇文章 0 订阅

订阅专栏

模型：看上出很简单，就是利用了bert的模型，输入输出不仅仅是文本，将视频和文本相结合一起自监督训练，不仅可以得到单文本或者单视频内部的关系，还可以得到文本和视频的对应关系。

文中强调了学习的是一种high-level的语义，和之前的视频表征学习不同，使用了三个现成的方法，ASR语音转文字（Youtube自带的一个API接口）、vector quantization（VQ）将视频转化为visual words和bert模型。主要贡献就是提出了这么一种自监督训练视频特征的方法。

这里的输入前面的CLS是一个标志位，标志了输入的是两段东西（这里难道说没有CLS就是输入的一段？也就是说单独模态和双模态混合训练？而且这里的输入输出的长度是怎么控制的呢？遇到SEP就停止这样吗？）

文中是利用SAR将视频语音转成文字

在使用mask的时候，先在text中设置mask，然后通过一种启发式的思想，简单的根据声音文字的时间定位到相应的视频片段，这样就找到了语义上大致符合的视频帧

文本处理：使用ASR语音转文本单词之后，使用一个现有的LSTM语言模型添加标点符号，后面的处理和bert中相同。字典使用和bert相同的字典，含有30000 tokens。

视频处理：在视频中以20fps采样（应该是每秒采样20帧），然后创建由30帧组成无重叠overlapping的clips，之后使用已有训练好的S3D模型提取视频特征，取最后一层线层分类器前面的激活值，通过3D平均池化得到1024维的特征向量。之后将特征向量利用层次K-means聚类，4层每层12类，一共12^4类，

这里需要向字典中添加视频单词的类目，通过上面层次k-means聚类之后，得到20736个类目初始化信息的中心，将它们放到查找字典中代表了visual words

4TPU上128 batch szie训练了2天。

在zero-shot action分类（zero意味着模型没有在目标数据集上训练并且没有和标数据集相同的label）、视频描述captions都进行了一定的实验。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
2019_VideoBERT-A Joint Model for Video and Language Representation Learning_ICCV

模型：看上出很简单，就是利用了bert的模型，输入输出不仅仅是文本，将视频和文本相结合一起自监督训练，不仅可以得到单文本或者单视频内部的关系，还可以得到文本和视频的对应关系。文中强调了学习的是一种high-level的语义，和之前的视频表征学习不同，使用了三个现成的方法，ASR语音转文字（Youtube自带的一个API接口）、vector quantization（VQ）将视频转化为visual words和bert模型。主要贡献就是提出了这么一种自监督训练视频特征的方法。这里的输入前面的CLS
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。