阅读笔记_yyyyyyyyXu的博客-CSDN博客

阅读笔记

关注

文章平均质量分 88

关注数：文章数：28 文章阅读量：21984 文章收藏量：56

作者: yyyyyyyyXu

一条ict酸菜鱼

展开

ECCV2020｜ Length-Controllable Image Captioning

Length-Controllable Image Captioning作者中南大学、阿德莱德大学开源地址：https://github.com/bearcatt/LaBERT解决的问题图像字幕，长度可控的文本生成摘要现存的方法不能控制生成文本的长度，无法选择粗糙/细致地对图像进行描述。因此这篇文章提出一个简单的length-level embedding实现这个能力。由于自回归特性，模型的计算复杂度与句长成线性增加。本文在三个模型上做了实验：两个自回归SOTA模型with不同类型

原创 2021-01-12 11:03:27 · 611 阅读 · 0 评论
TCSVT2020｜Event-centric hierarchical representation for dense video captioning

Event-Centric Hierarchical RepresentationEvent-centric hierarchical representation for dense video captioning (TCSVT 2020)中山大学github动机：Dense Video Captioning。以前的工作只关注简单的event-level context信息，忽视了event-event之间的关系以及全局场景信息。因此，本文提出了以event为中心的层次化representat

原创 2020-11-27 16:56:49 · 593 阅读 · 1 评论
NIPS18 ｜ Weakly Supervised Dense Video Caption in Videos

Weakly Supervised Dense Video Caption in Videos，NIPS2018这项研究由腾讯 AI Lab 与清华大学、麻省理工学院（MIT）和微软亚洲研究院（MSRA）合作完成。提出了一种使用弱监督方式标注视频中的稠密事件的方法，从而能够缓解模型训练对成本高昂的人工标注数据的需求。这种方法不再需要每个事件的发生时间区间来进行模型训练，而是基于一一对应假设，即每个时间区间只有一个语言描述，而每个语言描述只对应于一个时间区间。一一对应假设在当前公开任务和真实场景中..

原创 2020-11-27 09:50:43 · 597 阅读 · 0 评论
ECCV2018 ｜ Move forward and tell: A progressive generator of video descriptions

文章Move forward and tell: A progressive generator of video descriptionsECCV 2018港中文林达华动机：使用强化学习解决Dense Video Captioning问题，数据集ActivityNet Captions以前的方法缺乏语句之前的依赖，所以连贯性差以前的方法缺乏文本和视觉之间的对齐，所以重复、冗余评估caption的三个目的relevant 相关的文本和视频之间的对齐coherent 连贯一致

原创 2020-11-25 22:37:33 · 243 阅读 · 0 评论
ECCV2020 | TVC dataset: TV Show Caption

TVC: TV Show Caption链接Paper TVR: A Large-Scale Dataset for Video-Subtitle Moment RetrievalECCV 2020 首先提出TVR，在此基础上拓展了TVC数据集北卡罗来纳大学教堂山分校datasetLeaderboard 目前有一篇文章打榜[1] HERO: Hierarchical Encoder for Video+Language Omni-representation Pre-

原创 2020-11-25 15:02:53 · 670 阅读 · 0 评论
ACL20｜MART: Memory-Augmented Recurrent Transformer for Coherent Video Paragraph Captioning

背景腾讯AI Lab主导，与美国北卡罗来纳大学教堂山分校（UNC）合作完成。提出了一种增强视频描述生成的连贯性的循环Transformer结构MART，使用记忆存储单元增强transformer架构，实现递归模型。这个记忆存储单元从视频片段和句子历史记录，生成高度汇总的记忆state，帮助预测。实验证明，MART可以产生更连贯、没有重复、具有相关性的文本。paper：https://www.aclweb.org/anthology/2020.acl-main.233.pdfgithub：https:

原创 2020-11-05 16:05:16 · 924 阅读 · 0 评论
From Seeing to Moving: A Survey on Learning for Visual Indoor Navigation (VIL)

From Seeing to Moving: A Survey on Learning for Visual Indoor Navigation (VIL)摘要视觉室内导航（VIN）任务在基于学习的方法取得一定成功后，吸引了越来越多的关注。由于这个工作本身的复杂性，研究者们从不同角度入手解决这个问题。在这篇综述中，我们讨论了视觉导航及其相关任务的基于学习方法的进展，还讨论了现有方法未解决的困难...

原创 2020-04-02 23:20:20 · 319 阅读 · 0 评论
Show and Tell: Lessons learned from the 2015 MSCOCO Image Captioning Challenge

文章相关信息文章出处Vinyals, Oriol, et al. “Show and tell: Lessons learned from the 2015 mscoco image captioning challenge.” IEEE transactions on pattern analysis and machine intelligence 39.4 (2016): 652-66...

原创 2020-05-06 11:31:21 · 356 阅读 · 0 评论
Grounded video description

IntroductionGrounded video description. CVPR, 2019.这篇文章的主要贡献在于提出了新的密集事件描述ActivityNet Entities数据集，在Activity Captions的基础上，添加了captions中NP名词短语与视频中的物体的对齐。由于源数据集中数据量过大，因此采用了稀疏标注的方法，对每个视频切割出segment，在每个s...

原创 2020-03-19 16:41:51 · 1677 阅读 · 0 评论
Key-Value Memory Networks for Directly Reading Documents

Key-Value Memory Networks for Directly Reading Documents. EMNLP, 2016.解决的问题：从文档中直接提取问题答案主要的贡献：WIKIMOVIES 一个电影领域的QA数据集同时也是检测QA系统性能的分析工具包含100k个问题使用的方法：在问答系统中加入知识库KB完成QA任务，虽然有效但存在很多限制，比如不完备、领域局限。Fre...

原创 2020-03-19 16:25:55 · 553 阅读 · 0 评论
Spatio-Temporal Dynamics and Semantic Attribute Enriched Visual Encoding for Video Captioning

Spatio-Temporal Dynamics and Semantic Attribute Enriched Visual Encoding for Video Captioning.CVPR,2019.摘要自动生成视频字幕是一项基本的计算机视觉的任务，最近使用CNN和RNN技术解决该任务。这些方法主要关注于使用RNN序列学习方法生成更好的字幕，但却忽略了使用CNN提取特征的重要性。我们...

原创 2020-03-18 10:58:04 · 524 阅读 · 1 评论
Quaternion Knowledge Graph Embeddings

Quaternion Knowledge Graph Embeddings. NeurIPS 2019.https://github.com/cheungdaven/QuatE摘要在这篇文章中，我们越过传统的复杂值表示方法，介绍了超复杂表示方法以对知识图嵌入式的实体和关系进行建模表征。更具体地，我们使用一种超参数值表征的嵌入式方法，具有三个虚部的四元数嵌入式，对实体进行表征。所提出方法的优越...

原创 2020-03-14 22:39:24 · 2297 阅读 · 4 评论
Vision-Language Navigation with Self-Supervised Auxiliary Reasoning Tasks

IntroductionVision-Language Navigation with Self-Supervised Auxiliary Reasoning Tasks. CVPR, 2019.摘要Vision-Language Navigation(VLN)任务是智能体在自然语言指令下学习如何在环境中进行导航的任务。这个任务的关键在于序列地感知视觉和文本。传统的方法利用跨模态gr...

原创 2020-03-12 18:11:28 · 806 阅读 · 0 评论
Learning to Navigate Unseen Environments: Back Translation with Environmental Dropout

InstructionTan H, Yu L, Bansal M. Learning to navigate unseen environments: Back translation with environmental dropout[J]. ICLR，2019.代码开源地址：https://github.com/airsplay/R2R-EnvDrop摘要：在人工智能中有一...

原创 2020-03-11 18:33:33 · 611 阅读 · 2 评论
Self-monitoring navigation agent via auxiliary progress estimation

Self-monitoring navigation agent via auxiliary progress estimation，ICLR，2019.摘要VLN任务即一个智能体在真实的未知环境中按照导航指令进行移动。这个具有挑战性的任务要求智能体识别哪些指令已经完成，哪个指令在下一步需要关注，哪条路要走，以及导航距离终点的进程情况。在这篇文章中，我们介绍了self-monitoring智...

原创 2020-03-09 16:49:51 · 1133 阅读 · 0 评论
Reinforced Cross-Modal Matching and Self-Supervised Imitation Learning for Vision-Language Navigatio

Reinforced Cross-Modal Matching and Self-Supervised Imitation Learning for Vision-Language Navigation. CVPR,2019摘要Vision-language navigation（VLN）任务是一项令一个在真实3D环境中的智能体按照给定的自然语言指令进行导航移动的任务。在这篇文章中，我们研究...

原创 2020-03-08 16:48:52 · 860 阅读 · 3 评论
Speaker-Follower Models for Vision-and-Language Navigation

Fried D, Hu R, Cirik V, et al. Speaker-follower models for vision-and-language navigation[C]//Advances in Neural Information Processing Systems. 2018: 3314-3325.项目主页开源代码Abstract Follower：根据自然语言描...

原创 2020-03-06 21:05:48 · 570 阅读 · 0 评论
Look Before You Leap: Bridging Model-Free and Model-Based Reinforcement Learning

Look Before You Leap: Bridging Model-Free and Model-Based Reinforcement Learning for Planned-Ahead Vision-and-Language Navigation，ECCV 2018Abstract翻译：现在的基于视觉和语言定位的机器人导航研究，大多关注在合成环境中提高model-free深度强...

原创 2020-03-05 20:47:33 · 449 阅读 · 0 评论
Vision-and-Language Navigation: Interpreting visually-grounded navigation instructions in real env

Introduction来自澳大利亚阿德莱德大学，Vision-and-Language Navigation(VLN) 的一篇工作，发表在CVPR 2018。项目主页：地址个人主页：地址仿真器开源：地址Motivation 提出了Matterport3D Simulator，一个基于真实场景图的大规模强化学习环境。和之前的合成的强化学习环境相比，真实图像的环境更加具有视觉和语义...

原创 2020-03-04 12:07:13 · 1891 阅读 · 0 评论
Streamlined Dense Video Captioning

Task这篇文章是解决video caption的一个分支dense video caption(DVC)的一个任务，即在一段长视频中找出events，对每个event生成一句caption。MotivationDVC任务是2017年CVPR（Dense-Captioning Events in Videos）提出的，近两年的解决方法都是两步走：proposal和caption，主要的解...

原创 2020-03-03 00:09:13 · 1205 阅读 · 0 评论
Visual saliency detection based on multiscale deep cnn features

Task视觉显著性 Visual Saliency（这篇文章2017年左右，很早了）显著性由视觉对比产生，直观的表征了图像的某些部分与相邻区域比较更突出。本文发现，利用CNN提取的多尺度特征具有较高视觉显著性，在视觉识别方面取得了巨大成功。因此，本文引入了一种神经网络结构，在CNN后跟着FC层，提取三种不同尺度（相互嵌套）的特征（分别是考虑区域、相邻区域和整个区域）。另外，本文还构建了...

原创 2020-02-28 20:31:41 · 684 阅读 · 0 评论
Multi-label learning with missing labels using mixed dependency graphs

任务multi-label learning with missing labels(MLML)用训练集中实体的多类别标签对测试试题进行标注，但训练集中有些标签是丢失的关键点通过标签之间依赖关系构成的依赖图，将已知信息传递/预测丢失标签信息。依赖图中的directed边是语义标签信息，undirected边是实例级别的相似程度。Base graph是包括directed和undi...

原创 2020-02-27 20:28:26 · 1000 阅读 · 0 评论
Semantic Regularisation for Recurrent Image Annotation

TaskImage Annotation = multi-label classification + image captioningmulti-label classification：不仅仅是图片中的视觉概念（实体）进行识别，更是要对之描述，因此labels包括属性、物体、动作、关系等，输出是一系列标签。image captioning：使用一个完整的自然语言文本对图像进行描述，输出...

原创 2020-02-26 21:20:15 · 213 阅读 · 0 评论
Unsupervised Generative Adversarial Cross-modal Hashing

Unsupervised Generative Adversarial Cross-modal Hashing, AAAI 2018MotivationCross-modal hashing 跨模态哈希问题，致力于将各种模态的数据放到一个公共哈希空间中，以更简洁快速地计对跨模态数据进行表达和计算、检索。非监督的方法相比较监督的方法更不用受到初始条件的约束，因此更灵活。但是现存的非监督的方法在计...

原创 2020-02-25 21:22:01 · 1571 阅读 · 0 评论
Multi-person Articulated Tracking with Spatial and Temporal Embeddings

Introduction商汤，多人姿态估计和跟踪，CVPR 2019Motivation本文对多人动作识别和跟踪任务提出了一个统一的框架，由SpatialNet和TemporalNet组成。空域网络实现了单帧的姿态检测，时域网络实现了连续帧之间的人体跟踪。空域网络除了检测动作热力图，还可以预测关键点映射KE和空间实例映射SIE，本文使用PGG使得部件检测和组合可实现端到端训练。给定连续两帧中...

原创 2020-02-24 21:13:06 · 564 阅读 · 0 评论
CREST: Convolutional Residual Learning for Visual Tracking

简介视觉目标追踪，CREST，ICCV 2017在目标跟踪界泰斗杨明玄教授的指导下，香港城市大学，阿德莱德大学的研究人员提出了基于残差学习的端到端的深度目标跟踪算法。本文已开源，项目地址请查阅：https://ybsong00.github.io/iccv17/index.htmlGithub链接：https://github.com/ybsong00/CREST-ReleaseMot...

原创 2020-02-23 19:59:50 · 501 阅读 · 0 评论
TextSnake: A Flexible Representation for Detecting Text of Arbitrary Shapes

Author旷世科技Megvii(Face++) 文本检测Paper：TextSnake: A Flexible Representation for Detecting Text of Arbitrary Shapes, ECCV 2018Ideacurvedcurvedcurved texttexttext弯曲形状的文本检测。传统的方法受到描述文本表述的限制（如Fig.1Fig.1F...

原创 2020-02-21 20:26:28 · 324 阅读 · 0 评论
Mask TextSpotter: An End-to-End Trainable Neural Network for Spotting Text with Arbitrary Shapes

简介作者：旷视科技，华中科技大学白翔老师团队，ECCV 18文章链接翻译ref链接代码pytorch实现代码caffe2实现解决的问题：场景文本检测和识别。本文以一种可以端到端训练的神经网络模型实现场景文本检测和识别两个任务，提出模型名为Mask TextSpotter，可以通过语义分割semantic segmentation识别任意形状的文本实例。以前的方法（[27]和[3]）将两...

原创 2020-02-22 22:04:25 · 244 阅读 · 0 评论

阅读笔记

作者: yyyyyyyyXu

ECCV2020｜ Length-Controllable Image Captioning

TCSVT2020｜Event-centric hierarchical representation for dense video captioning

NIPS18 ｜ Weakly Supervised Dense Video Caption in Videos

ECCV2018 ｜ Move forward and tell: A progressive generator of video descriptions

ECCV2020 | TVC dataset: TV Show Caption

ACL20｜MART: Memory-Augmented Recurrent Transformer for Coherent Video Paragraph Captioning

From Seeing to Moving: A Survey on Learning for Visual Indoor Navigation (VIL)

Show and Tell: Lessons learned from the 2015 MSCOCO Image Captioning Challenge

Grounded video description

Key-Value Memory Networks for Directly Reading Documents

Spatio-Temporal Dynamics and Semantic Attribute Enriched Visual Encoding for Video Captioning

Quaternion Knowledge Graph Embeddings

Vision-Language Navigation with Self-Supervised Auxiliary Reasoning Tasks

Learning to Navigate Unseen Environments: Back Translation with Environmental Dropout

Self-monitoring navigation agent via auxiliary progress estimation

Reinforced Cross-Modal Matching and Self-Supervised Imitation Learning for Vision-Language Navigatio

Speaker-Follower Models for Vision-and-Language Navigation

Look Before You Leap: Bridging Model-Free and Model-Based Reinforcement Learning

Vision-and-Language Navigation: Interpreting visually-grounded navigation instructions in real env

Streamlined Dense Video Captioning

Visual saliency detection based on multiscale deep cnn features

Multi-label learning with missing labels using mixed dependency graphs

Semantic Regularisation for Recurrent Image Annotation

Unsupervised Generative Adversarial Cross-modal Hashing

Multi-person Articulated Tracking with Spatial and Temporal Embeddings

CREST: Convolutional Residual Learning for Visual Tracking

TextSnake: A Flexible Representation for Detecting Text of Arbitrary Shapes

Mask TextSpotter: An End-to-End Trainable Neural Network for Spotting Text with Arbitrary Shapes