文章
- Move forward and tell: A progressive generator of video descriptions
- ECCV 2018
- 港中文 林达华
- 动机:使用强化学习解决Dense Video Captioning问题,数据集ActivityNet Captions
- 以前的方法缺乏语句之前的依赖,所以连贯性差
- 以前的方法缺乏文本和视觉之间的对齐,所以重复、冗余
评估caption的三个目的
- relevant 相关的 文本和视频之间的对齐
- coherent 连贯一致的 文本层面的逻辑一致和连贯性
- concise 简洁的 句子之间没有重复冗余
方案:三个模块
-
event localization
- Temporal action detection with structured segment networks. ICCV 2017
- 使用别人现成的开源代码 还可以顺便计算关键帧
-
event selection
- LSTM实现。挑选独立事件,且与之前的事件