论文阅读【Open-book Video Captioning with Retrieve-Copy-Generate Network】

Open-book Video Captioning with Retrieve-Copy-Generate Network

概要

  • 发表:CVPR 2021
  • idea:作者认为之前的方法由于生成caption的时候缺乏一定的指导,因此生成的caption比较单调,并且由于训练数据集是固定的,所以模型训练后学到的知识是不可扩展的。作者想到通过video-to-text检索任务,从语料库中检索句子作为caption的指导。类似开卷考试(open-domain mechanism)

详细设计

在这里插入图片描述

1. Effective Video-to-Text Retriever
  • 将语料库中所有sentences通过一个textual encoder映射到d维,videos通过visual encoder映射到d维,求相似度作为选择标准标准
    在这里插入图片描述

  • Textual Encoder:bi-LSTM
    在这里插入图片描述
    ps: L L L表示句子长度, W s W_s Ws是可学习的embedding矩阵, η s \eta _s ηs为LSTM的参数
    在这里插入图片描述
    将长度L的sentence聚合成一个d维的vector:在这里插入图片描述
    v s v_s vs是聚合参数

  • Visual Encoder:appearance features && motion features
    在这里插入图片描述
    在这里插入图片描述
    v a , v m v_a,v_m va,vm是聚合参数

  • video-to-text similarity:在这里插入图片描述
    最终得到k个检索出来指导的句子

2. Copy-mechanism Caption Generator

通过Hierarchical Caption Decoder来生成caption,只是在每一个step通过Dynamic Multi-pointers Module决定是否要copy指导的word

2.1 Hierarchical Caption Decoder

由一个attention-LSTM和一个language-LSTM组成。attention-LSTM用于注意visual features用于聚合当前的状态和视觉上下文以生成词汇库的概率分布 p v o c p_{voc} pvoc

  • attention-LSTM
    在这里插入图片描述
    x = [ x m ; x a ] x = [x^m;x^a] x=[xm;xa] y t − 1 y_{t-1} yt1表示上一step生成的单词
  • language-LSTM
    在这里插入图片描述
    W b o c , b b o c W_{boc},b_{boc} Wboc,bboc都是可学习参数
2.2 Dynamic Multi-pointers Module

前提:已经得到K个候选sentences在这里插入图片描述每个sentence有L个单词在这里插入图片描述

  • 对每个句子分别处理。将decoder中的hidden state h t l h^l_t htl作为Q对句子中L个单词做attention,得到L个单词的注意力概率分布
    在这里插入图片描述
    p r e t , i p_{ret,i} pret,i表示第i个句子中各个单词的注意力分布权重; c i , t r c_{i,t}^r ci,tr表示加权后的结果。

  • 决定是否copy选择的单词
    在这里插入图片描述

  • 得到最终所有词汇的概率分布( p r e t p_{ret} pret被扩展, p c o p y p_{copy} pcopy被广播)
    在这里插入图片描述

3. Training

  • 策略1:为了可扩展语料库,可以固定retriever,fine-tuning generator。
  • 策略2:也可以二者一起训练,但是如果直接更新retriever会导致generator从一开始就训练得很差,所以对Loss中添加了限制
    在这里插入图片描述

实验结果

  • 消融实验
    different K
    在这里插入图片描述
    different corpus size
    在这里插入图片描述
  • Comparison Performance
    在这里插入图片描述
    结果其实一般,都没有超过20年的一些实验
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
视频描述(video captioning)是一种将视频序列自动转换为自然语言描述的任务。其目标是生成一个自然语言句子,准确地描述视频中所发生的事件,包括视频中的对象、动作、场景等等。视频描述在自然语言处理计算机视觉领域都有广泛的应用,例如视频搜索、自动视频摘要、人机交互等。\[2\]对于dense video captioning问题,它要产生对一段视频所有可能的描述。一种弱监督方法是使用Multi-instance multi-label learning(MIMLL)。MIMLL直接从视频-句子数据中学习每个视频图像区域对应的描述词汇向量,并将这些词汇描述向量结合起来作为encoder-decoder的输入,实现video captioning。在MSR-VTT数据集中,该方法是目前的state-of-the-art方法。\[3\] #### 引用[.reference_title] - *1* *3* [Video Analysis 相关领域介绍之Video Captioning(视频to文字描述)](https://blog.csdn.net/wzmsltw/article/details/71192385)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^insertT0,239^v3^insert_chatgpt"}} ] [.reference_item] - *2* [视频字幕生成综述A Survey on Video captioning](https://blog.csdn.net/weixin_43409675/article/details/129719700)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^insertT0,239^v3^insert_chatgpt"}} ] [.reference_item] [ .reference_list ]

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值