Understanding Objects in Video:Object-Oriented Video Captioning via Structure and Adversarial Learn

该文提出了一种面向对象的视频字幕生成方法,利用MaskTrackRCNN进行对象检测和定位,结合全局和局部特征,以及对象属性探测器生成详细描述。通过添加对抗生成网络来约束描述的准确性,确保生成的字幕与视频对象匹配。这种方法旨在提高视频内容理解的精确度。
摘要由CSDN通过智能技术生成

在这里插入图片描述
这篇文章与其他video captioning不同的是:这是面向对象的video captioning,它旨在对视频中的每一个对象都生成描述。
首先,使用MackTrackRCNN去生成每个对象按时间顺序出现的视频帧,以及这个对象在这些帧中出现的空间位置,并将其与整个视频通过backbone提取特征全局特征和局部特征。C是外观信息,B是空间位置。因为面向对象的video captioning与一般的video captioning相比,它更需要将关于对象的描述更细致,于是这篇文章加了关于属性探测的模型来生成关于属性的描述。属性探测器就是加了attention的简单的多分类器,并将其得到的属性标签(A)与全局、局部、C、B特征拼接在一起输入到LSTM中进行解码。
为了更好地训练(论文中是这样说的),文章中害提出了生成对抗模型,但因为生成对抗网络不适合处理文本生成任务(因为文本不像图像是连续的,离散的文本不可微,无法进行梯度传播),所以在生成描述之后提取描述的语义信息(object、movement等)与前面生成的Object局部特征拼接在一起,使用一个分类器判断它们是不是匹配的,也就是生成的描述是不是关于该对象的描述,以此做一个约束。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值