Event-Centric Hierarchical Representation
- Event-centric hierarchical representation for dense video captioning (TCSVT 2020)
- 中山大学
- github
- 动机:Dense Video Captioning。以前的工作只关注简单的event-level context信息,忽视了event-event之间的关系以及全局场景信息。因此,本文提出了以event为中心的层次化representation,包括scene-level, event-level, frame-level。
- scene-level: Topic Predictor
- event-level: TSRM ( temporal-semantic relation module )
- frame-level
- 还提出了TL-NMS减少多余的event以提高生成captioning的质量
- 数据集:ActivityNet Captions. YouCook2
- 以前方法会导致逻辑的错误,因为没有注意到全局场景信息/事件之间的依赖关系(continue\end)
<