Relation-aware Video Reading Comprehension for Temporal Language Grounding 论文阅读笔记
来自云从,即将开源?
paper是做文本查询对应视频片段的工作,即给一个文本作为query,需要知道一段视频中,满足这个query描述的起止时间和终止时间。
输出的时间戳满足属于连续时间段。如上图所示,红色框中起止和终止时间就是模型的预测输出。
背景
众多的temporal language grounding(TLG)方法,注重整个句子和视频的关系,而忽略了每个token和moment的关系,后者是一种更加细粒度的语言信息。而且还忽略了多个候选框之间的联系,暴力的采用ranking方法,单独处理每个候选
原创
2021-11-15 15:32:46 ·
903 阅读 ·
0 评论