CVPR 2020 | ActBERT: 自监督多模态视频文字学习
自监督特征学习近年来已有如火如荼的发展,并从单模态的自监督学习,如图片自监督特征学习,视频自监督特征学习,蔓延到多模态,利用图片与文字或者视频与文字的关联性进行特征学习。利用图片与文字关联性进行自监督学习已有非常多优秀的工作,如 Vilbert, LXMERT, VisualBERT, VLBERT, UNITER, Unified VLP 等等。这类工作的数据源一般是 Conceptual Captions 或 SBU Captions,且图片文字对往往是从网站中已有的数据自动抓取得到,无须额...
转载
2020-08-04 10:00:06 ·
941 阅读 ·
0 评论