Introduction
- Grounded video description. CVPR, 2019.
- 这篇文章的主要贡献在于提出了新的密集事件描述ActivityNet Entities数据集,在Activity Captions的基础上,添加了captions中NP名词短语与视频中的物体的对齐。
- 由于源数据集中数据量过大,因此采用了稀疏标注的方法,对每个视频切割出segment,在每个segment中标注物体的class和bounding box,并且要求每个segment中该物体仅标注一帧。该文章使用这种方法,有效提高了caption的精度(由于bbx的召回率和准确率都不高,提升性能并不大)。
- 主要贡献:ActivityNet Entities数据集
- 解决问题:密集事件描述中实体定位grounded