TCSVT2020｜Event-centric hierarchical representation for dense video captioning

最新推荐文章于 2024-07-04 22:07:41 发布

yyyyyyyyXu

最新推荐文章于 2024-07-04 22:07:41 发布

阅读量593

点赞数

分类专栏：阅读笔记

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_40711769/article/details/110236904

版权

该研究提出了一种事件中心的层次化表示方法用于密集视频字幕，包括场景级、事件级和帧级的表示。通过场景级主题预测器、时间语义关系模块和事件提案网络，捕捉事件间的关联和全局场景信息。同时，引入时间语义关系模块和TL-NMS来优化事件提案和生成的字幕质量。在ActivityNet Captions和YouCook2数据集上进行了实验，验证了所提方法的有效性。

摘要由CSDN通过智能技术生成

Event-Centric Hierarchical Representation

Event-centric hierarchical representation for dense video captioning (TCSVT 2020)
中山大学
github
动机：Dense Video Captioning。以前的工作只关注简单的event-level context信息，忽视了event-event之间的关系以及全局场景信息。因此，本文提出了以event为中心的层次化representation，包括scene-level, event-level, frame-level。
- scene-level: Topic Predictor
- event-level: TSRM ( temporal-semantic relation module )
- frame-level
- 还提出了TL-NMS减少多余的event以提高生成captioning的质量
数据集：ActivityNet Captions. YouCook2
以前方法会导致逻辑的错误，因为没有注意到全局场景信息/事件之间的依赖关系(continue\end)

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。