Streamlined Dense Video Captioning

最新推荐文章于 2024-04-08 13:36:08 发布

yyyyyyyyXu

最新推荐文章于 2024-04-08 13:36:08 发布

阅读量1.1k

点赞数

分类专栏：阅读笔记

本文链接：https://blog.csdn.net/qq_40711769/article/details/104623238

版权

本文针对密集视频字幕（DVC）任务，提出了一种新方法，通过事件排序减少冗余，利用强化学习确保事件间的相关性和字幕的连贯性。在ActivityNet数据集上进行实验，该方法在事件提案、序列生成和字幕生成阶段均有所创新，提高了caption的准确性和整体性。

摘要由CSDN通过智能技术生成

Streamlined Dense Video Captioning
这篇文章是解决video caption的一个分支dense video caption(DVC)的一个任务，即在一段长视频中找出events，对每个event生成一句caption。

DVC任务是2017年CVPR（Dense-Captioning Events in Videos）提出的，近两年的解决方法都是两步走：proposal和caption，主要的解决文题为如何提高proposal精度、如何获取更丰富的具有上下文的特征以生成准确的caption。也有将两者做成end-to-end问题（End-to-End Dense Video Captioning with Masked Transformer，CVPR18），使用caption提高proposal精度的方法，并且取得了较好效果。
但是存在着两个问题：生成的captioning都是冗余的，没有考虑到event之间的相关性。
为了解决这两点，本文提出的解决方法是：

对event进行排序挑选，每段视频生成一个episode，减少event数量。
使用强化学习方法，在生成captioning时，不仅考虑视觉相关也考虑文本相关，不仅考虑event生成captioning的精度，还考虑与episode的相关性。

关注

专栏目录