Video Paragraph Captioning Using Hierarchical Recurrent Neural Networks

最新推荐文章于 2022-02-22 16:28:55 发布

sakus

最新推荐文章于 2022-02-22 16:28:55 发布

阅读量409

点赞数

分类专栏： NII 文章标签： paper

本文链接：https://blog.csdn.net/sakus/article/details/83241842

版权

一. 基本信息

标题：Video Paragraph Captioning Using Hierarchical Recurrent Neural Networks
时间：2016

出版源：CVPR

领域分类：video captioning

二. 研究背景

问题定义：given a video, generate a paragraph(multiple sentences)

难点：inter-sentence dependency and a paragraph is inherently hierarchical.

三. 创新方法

Framework:
(A) sentence generator —RNN
(B) paragraph generator —RNN

四. 实验

dataset：

YouTube2Text

open-domain
1,970 videos, ~80k video-sentence pairs, 12k unique words > only one sentence for a video (special case)

TACoS-MultiLevel

closed-domain: cooking
173 videos, 16,145 intervals, ~40k interval-sentence pairs, 2k unique words > several dependent sentences for a video

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

sakus

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

Paragraph-level Neural Question Generation with Maxout Pointer and Gated Self-attention Networks

Young, Simple, Naive

10-02

287

使用 gated self-attention encoder 和 maxout pointer decoder 的长文本 QG

Video Paragraph Captioning as a Text Summarization Task

10-26

343

论文不太小下载，所以提供了云盘地址，需要的可以下载哦 pdf 链接：https://pan.baidu.com/s/1yP6DVpXoYwzXJX2eVzXx2Q 提取码：1234 摘要一、Introduction 二、Our VPCSum Method 2.1.Proposal Extraction 2.2 Proposal Captioning 2.3 Caption Summarization 2.4 Leverage Visual Information 3 Experi...

参与评论您还未登录，请先登录后发表或查看评论

Hierarchical Recurrent Neural Networks for Audio Super-Resolution

凌逆战的博客

01-06

1015

Hierarchical Recurrent Neural Networks for Audio Super-Resolution 基于递阶递归神经网络的音频超分辨率作者：Berthy Feng 摘要本工作提出了一种用于音频超分辨率的递归模型，该模型的任务是推断低分辨率录音的高分辨率版本。鉴于缺乏基线方法和最合适的深度学习方法的模糊性，我们将重点放在递归神经网络上。我们提出了一种分层递...

【Hard to Park】Semi-Supervised Hierarchical Recurrent Graph Neural Network

小卜妞的博客

02-05

1005

Semi-Supervised Hierarchical Recurrent Graph Neural Network for City-Wide Parking Availability Prediction 用于城市范围内停车可用性监测的半监督分层递归图神经网络 Abstract 对市内停车位的有效预测可以提高停车效率，帮助停车规划，从而最终有效解决停车拥堵。解决该问题面临以下三个挑战： ...

ACL20｜MART: Memory-Augmented Recurrent Transformer for Coherent Video Paragraph Captioning

零食的csdn博客

11-05

926

背景腾讯AI Lab主导，与美国北卡罗来纳大学教堂山分校（UNC）合作完成。提出了一种增强视频描述生成的连贯性的循环Transformer结构MART，使用记忆存储单元增强transformer架构，实现递归模型。这个记忆存储单元从视频片段和句子历史记录，生成高度汇总的记忆state，帮助预测。实验证明，MART可以产生更连贯、没有重复、具有相关性的文本。 paper：https://www.aclweb.org/anthology/2020.acl-main.233.pdf github：https:

ACL 2020 MART: Memory-Augmented Recurrent Transformer for Coherent Video Paragraph Captioning

smile909的博客

05-17

710

动机本文目标是生成一个段落（多个句子），条件是输入具有几个预定义的事件片段的视频。为视频生成多句子描述是最具挑战性的任务之一，因为它不仅要求视频的视觉相关性，而且要求段落中句子之间基于语篇的连贯性。最近，Transformer已被证明比RNN更有效，在许多顺序建模任务中展示了卓越的性能。之前将transformer模型引入视频段落captioning任务的方法，Transformer操作在分离的固定长度的段上，没有跨段的任何信息流。Transformer架构仍然不能很好地建模历史信息。因此，为了生成更

SMALL-FOOTPRINT KEYWORD SPOTTING USING DEEP NEURAL NETWORKS学习摘要

Ema1997的博客

07-17

3936

SMALL-FOOTPRINT KEYWORD SPOTTING USING DEEP NEURAL NETWORKS学习摘要，论文主要讲了一种语音唤醒的方法

【论文阅读笔记】（2015 CVPR）Hierarchical recurrent neural network for skeleton based action recognition

qq_36627158的博客

02-22

1998

Representation Learning of Temporal Dynamics for Skeleton-Based Action Recognition （2015 CVPR） Authors Notes Contributions We propose an end-to-end hierarchical RNN for skeleton based action recognition. Instead oftaking the whole skeleton as the in

读书笔记1：Hierarchical Recurrent Neural Network for Skeleton Based Action Recognition

b224618的博客

05-03

3129

写这个读书笔记，一方面是为了了解他人的研究，另一方面希望学习科技论文的写作方法，提升自己写paper的水平。原文链接：https://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Du_Hierarchical_Recurrent_Neural_2015_CVPR_paper.pdf 下面对文章每个部分的结构和内容进行分析...

人大提出新模型，将Two Stage的Video Paragraph Captioning变成One Stage，性能却没下降...

我爱计算机视觉

08-27

291

关注公众号，发现CV技术之美0写在前面视频段落字幕（Video paragraph captioning）的目的是在未修剪的视频中描述多个事件。现有的方法主要通过事件检测和事件字幕两个步骤...

Waveform Modeling and Generation Using Hierarchical Recurrent Neural Networks for Speech Bandwidth E...

凌逆战的博客

12-20

1064

基于递阶递归神经网络的语音频带扩展的波形建模与生成作者：凌震华老师；成员：Yang Ai , 顾宇, and Li-Rong Dai 摘要　　本文提出了一种基于递阶递归神经网络(HRNN)的语音带宽扩展(BWE)的波形建模与生成方法。与传统的预测宽带语音波形谱参数的盲式频带扩展(BWE)方法不同，该方法在不使用声码器的情况下，直接对波形样本进行建模和预测。该模型受一个无条件的神...

[COLING2016]Semantic Relation Classification via Hierarchical Recurrent Neural Network with Attentio

Deep Learning and NLP Farm

03-02

993

实体对将句子分为５个部分即左部分，实体１，中间部分，实体２，右部分，其中左部分，中间部分和右部分三个序列中每一部分都有一系列词组成，分别对其进行bilstm＋attention生成r11_1, r22_2和r33_3, 按照Figure1所示，假设entity1 的indice是j, entity2的indice是K,　那么有r11_1, xjj_j, r22_2, xkk_k和r33_3组成...

HIERARCHICAL MULTISCALE RECURRENT NEURAL NETWORKS 论文简介

第二剑~的博客

06-17

874

学习层次和时间表示一直是RNN的长期挑战之一。多尺度RNN一直被认为是能够解决这个问题的一种有效方式，但是缺乏经验证据表明这种方式可以通过发现序列中的潜在层次结构准确地解决时序依赖问题。而这篇论文提出了一种新颖的结构，可以通过使用新颖的更新机制和不同的时间尺度来编码时序依赖解决潜在的层次结构问题，并且没有使用明确的边界信息。已知深度CNN可以获得空间数据的层次表示，RNN可以获得时序数据时间表...

视频描述（Video Captioning）调研

weixin_30706691的博客

11-08

420

递归神经网络_今日 Paper | 从纯图像重建世界；层次递归网络序列；注意力神经网络；命名实体识别等...

weixin_39684228的博客

11-23

116

目录层次递归网络序列标注的转移学习注意力神经网络序列标记模型中的特征基于双向LSTM-CNNs的命名实体识别通过双向LSTM-CNNs-CRF进行端到端序列标记更好的物体表征，更好地从纯图像重建世界层次递归网络序列标注的转移学习论文名称：TRANSFER LEARNING FOR SEQUENCE TAGGING WITH HIERARCHICAL RECURRENT NETWORKS作者：Zhi...

论文阅读：CVPR2016 Paper list