AAAI-2019:Space-Time Cubic Puzzles
论文:【Self-Supervised Video Representation Learning with Space-Time Cubic Puzzles】
论文的思路蛮出彩的,作者提出的自监督pretext任务是把视频在时间、空间上做裁剪,把裁剪得到的块进行排列,训练网络来识别排列的类型。
一、Pretext task
1)pretext本来的意思是借口、托辞,我个人理解pretext task有点像多任务学习、迁移学习,通过这个任务来让网络学习到有具体含义的特征,进而解决下游任务的难题。
2)对于视频,文章直观地想提取时空特征,就联想到了排列,让网络去猜裁剪下来的视频是怎么排列的,以此来学习时空特征。
3)那怎么去裁剪视频?
作者提到了如果视频裁剪成了太多的块,不同排列之间的差异可能太小了ÿ