这是CVPR2018 Oral的一片关于Weakly-Supervised Video Grounding的文章,paper连接http://ai.stanford.edu/~dahuang/papers/cvpr18-ramil.pdf,作者的homepage http://ai.stanford.edu/~dahuang/,code暂时没有被released出来。
文章要做的事情:
输入:sentence+video 输出:bounding box(train的时候没有bbox ground truth)
文章中show出来的example如下所示。
文章在两个datasets上面的实验结果如下所示。
Finding “It”: Weakly-Supervised Reference-Aware Visual Grounding in Instructional Videos
最新推荐文章于 2024-03-12 10:14:02 发布