论文阅读
文章平均质量分 66
WinneChan
做人最重要是有自己喜欢的东西
展开
-
论文阅读 | LEARNING VIDEO REPRESENTATIONS USING CONTRASTIVE BIDIRECTIONAL TRANSFORMER
1. 论文链接:https://arxiv.org/abs/1906.057432. 论文分类:自监督,视频语言特征联合学习3. 论文目的:利用BERT和对比学习算法学习视频特征4. 论文算法:主要过程:先分别将视频和语音文本输入到CBT和BERT中,得到序列特征(因为先用了两个独立的stream来处理两个序列,所以不需要像VideoBERT那样额外对视频序列进行量化,而是通过两个stream都将序列变成连续特征),然后将两个序列特征拼接在一起经过一个cross-modal CBT。其中CBT模型原创 2021-02-06 22:43:58 · 2257 阅读 · 0 评论 -
论文阅读 | VideoBERT: A Joint Model for Video and Language Representation Learning
1. 论文链接:https://arxiv.org/abs/1904.01766v22. 论文分类:视频和自然语言特征联合学习,自监督3. 论文目的:利用BERT学习视频序列 x 和语音文本 y 的联合分布 p(x,y)4. 论文应用:(1)text-to-video prediction / text-to-video generation(2)video future forcasting(3)video-to-text5. 论文算法主要过程:将random mask的文本tok原创 2021-02-06 20:50:17 · 1401 阅读 · 0 评论