文献:The something something video database for learning and evaluating visual common sense.
本数据集为大规模众包生成,即视频由众多不同的人贡献,包括1133个众包工作者。
包含108499个视频,横跨174个标签,每个视频2-6秒。按8:1:1的比例划分训练集、测试集、验证集。数据集的划分按照同一上传者的视频在一个集合内。
数据集为人与物的交互,从其标签上也可以看出“把某物放入某物”。
我理解的更准确的应该是“手”和物体的交互,比如动作为,放,戳。
文章Something-Else:Compositional Action Recognition with Spatial-Temporal Interaction Networks。对数据集进行了再升级。称为something-somethingV2.
请多补充,持续更新中。。