![](https://img-blog.csdnimg.cn/20201014180756754.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
视频摘要
文章平均质量分 70
今天不标数据的小wu
这个作者很懒,什么都没留下…
展开
-
Understanding Objects in Video:Object-Oriented Video Captioning via Structure and Adversarial Learn
这篇文章与其他video captioning不同的是:这是面向对象的video captioning,它旨在对视频中的每一个对象都生成描述。首先,使用MackTrackRCNN去生成每个对象按时间顺序出现的视频帧,以及这个对象在这些帧中出现的空间位置,并将其与整个视频通过backbone提取特征全局特征和局部特征。C是外观信息,B是空间位置。因为面向对象的video captioning与一般的video captioning相比,它更需要将关于对象的描述更细致,于是这篇文章加了关于属性探测的模型来生.原创 2021-05-23 11:19:11 · 105 阅读 · 0 评论 -
Learning to Discretely Compose Reasoning Module Networks for Video Captioning阅读笔记
这篇论文提出使用组成推理模块完成Video captioning任务。一般的encoder-decoder框架是将视频特征编码,然后使用RNN变体解码,这解码的过程必须存在推理过程,然而,在每一时刻生成描述的时候是注意到了视频的哪一部分特征,这对我们来说是黑盒,所以这篇论文提出了一个显式的推理模块。首先对视频提取特征,分别是Va(外观特征),Vo(目标特征),Vm(动作特征),ht en是前t-1时刻的描述的LSTM的编码,推理部分由三个模块组成,当模型要生成一句这样的描述时:一个人在打篮球,首先这个模.原创 2021-05-23 11:17:31 · 373 阅读 · 0 评论 -
Multi-Task Video Captioning with Video and Entailment Generation阅读笔记
这篇文章提出多任务学习去优化Video Captioning框架,模型框架图如上所示,共3个任务。其中,UNSUPERVISED VIDEO PREDICTION(无监督视频预测):一个视频由n帧组成,首先对这些帧提取特征,然后将其分为1…k,k…,n帧,这个任务就是由前k个帧的视频特征,去预测后n-k个帧的视频特征。第二个任务是ENTAILMENT GENERATION,这个任务是输入一个句子,生成一个与输入句子相似的句子(许多video captioning数据集中关于一个视频有多个描述,这些描述.原创 2021-05-23 11:15:26 · 248 阅读 · 0 评论 -
Top-down Visual Saliency Guided by Captions阅读笔记
这篇文章文章通过计算“字幕引导的视觉显着性”(即注意力),从而在视觉输入中的对象与句子中的单词之间建立对应关系的程度。具体的模型架构如下图:分别在时间和空间上做两个注意力,即如视觉注意力是对输入的每个帧i和每个单词t产生时间显着性值,然后通过从输入序列中删除除第i个描述符之外的所有描述符。最后的输出会与原始单词概率分布进行比较来计算loss。Background:Encoder-Decoder Model假定p个视频帧的输入序列x = (x1,…,xp)和n个字组成的的目标序列y = (y1,…,yn原创 2021-05-16 18:21:22 · 264 阅读 · 0 评论 -
Video Captioning by Adversarial LSTM 阅读笔记
Video Captioning by Adversarial LSTM本文提出了一种基于对抗学习和长短期记忆(LSTM)的视频字幕新方法。利用这种解决方案概念,旨在补偿基于LSTM的视频字幕方法的缺陷,这些方法在生成字幕时通常显示出有效处理视频数据的时间特性的潜力,但通常也会遭受指数误差累积。具体来说,我们采用标准的生成性对抗网络(GAN)架构,其特征是两个相互竞争的过程的相互作用:一个“生成器”,根据视频的视觉内容生成文本句子;一个“鉴别器”,控制生成句子的准确性。鉴别器作为生成器的“对手”,通过其控原创 2021-04-26 22:04:34 · 330 阅读 · 0 评论 -
Understanding Objects in Video: Object-Oriented Video Captioning via Structured Trajectory...阅读笔记
Understanding Objects in Video: Object-Oriented Video Captioning via Structured Trajectory and Adversarial Learning论文链接传统的视频字幕做的任务都是描述视频中出现的主要事件,不对所有的特定对象进行详细描述,此外,大多数方法在训练过程中采用了对象间框架级的相关特征和模糊描述,这些数据驱动的基于图像的视频字幕方法不识别单独对象的类别和位置,也不关联对象之间的过渡轨迹,不能用视觉特征推理活动,而原创 2021-04-22 22:32:49 · 151 阅读 · 0 评论 -
Object Relational Graph with Teacher-Recommended Learning for Video Captioning 阅读笔记
Object Relational Graph with Teacher-Recommended Learning for Video Captioning论文链接Motivation:1.忽略了视频中物体的交互,2.对内容相关的词的充分训练带来的long-tailed问题。解决:通过GCN对视频进行局部特征提取,通过引入外部语言模型解决长尾问题。具体:提出了ORG捕获视觉表示的交互特征涉及了一个老师推荐学习TRL来充分利用外部语言模型ELM,将语言知识整合到caption模型中,ELM生成了在语义原创 2021-04-01 12:25:18 · 798 阅读 · 0 评论