《VideoBERT: A Joint Model for Video and Language Representation Learning》

最新推荐文章于 2024-07-06 02:28:53 发布

hhhhhhhmg

最新推荐文章于 2024-07-06 02:28:53 发布

阅读量2.7k

点赞数 2

本文链接：https://blog.csdn.net/hemengge/article/details/109091210

版权

《VideoBERT: A Joint Model for Video and Language Representation Learning》是将BERT与视频结合，通过自监督学习视频和文本的联合表示。研究者通过hierarchical k-means将视频特征离散化为tokens，并在预训练阶段进行完形填空和序列一致性预测任务。在视频字幕生成任务中，VideoBERT表现出色，提升了特征抽取的效果。

摘要由CSDN通过智能技术生成

论文地址： https://arxiv.org/pdf/1904.01766.pdf
这是一篇将BERT结合video来学习跨模态表示的经典之作。该工作将video中提取出的特征向量通过聚类的方法离散化，继而在文本token的基础上增加视觉token，一起学习视觉和文本信息。

1 方法

1.1 视频文本数据处理（video and language processing）

针对video的处理，首先从input video每秒中抽取20帧画面（20 fps），每30帧组成一个片段。对每个clip用pretrained的ConvNet提取特征向量（1024维）。但是由于特征向量属于整个实数空间，是不可数的。为了和文本token相对应，作者对所有提取出的特征向量使用hierarchical k-means做聚类，一共得到20736个类中心。把类中心作为visual token，每一个视觉特征向量都由它属于的类中心来表征。

1.2 输入格式（input format）

经过前面的处理，video中的语言和视觉信息都变成了离散的token，VideoBERT的输入格式延续了原始BERT的设计，只是增加了[>]这个特殊的token用来分开text token和visual token。
在这里插入图片描述

最低0.47元/天解锁文章

hhhhhhhmg

关注

2
点赞
踩
11

收藏

觉得还不错? 一键收藏
2
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫