《2022-arxiv- Movies2Scenes: Learning Scene Representations Using Movie Similarities》
步骤
- 从genre/synopsis/more-like-this information中选出类别相同的电影,然后从相似的电影的找出前50%相似的scene作为positive samples
- 将每k帧的frame划分patch,加上position embedding输入到transformer-based的网络中抽取特征,用公式(2)做contrastive learning,学习scene表示
- 在多个数据集上进行下游任务
实验
- 在新提出的MovieCL30K数据集上预训练,其他数据集作为下游任务训练并测试
- 新提了一个MCD数据集
注
数据集、代码:未公开