论文笔记
luputo
这个作者很懒,什么都没留下…
展开
-
Engaging Image Captioning via Personality
Engaging Image Captioning via Personality原文地址时间:2019 CVPR arxiv 2018原创 2019-06-28 16:50:43 · 1055 阅读 · 0 评论 -
Self-critical Sequence Training for Image Captioning
Self-critical Sequence Training for Image Captioning原文地址时间:2017原创 2019-06-14 17:36:16 · 3376 阅读 · 0 评论 -
Dense Relational Captioning:Triple-Stream Networks for Relationship-Based Captioning
Dense Relational Captioning:Triple-Stream Networks for Relationship-Based Captioning原文地址时间:2019 CVPRIntro本文要解决的问题是dense caption,通过寻找每对object之间的关系来进行caption生成Approach给一张图片,RPN生成object proposals,然...原创 2019-06-14 17:34:48 · 988 阅读 · 0 评论 -
Context and Attribute Grounded Dense Captioning
Context and Attribute Grounded Dense Captioning原文地址时间:2019 CVPRIntro本文要解决的是dense caption的问题,传统方法中,对于每个proposal 单独生成caption而不结合上下文,结果可能因为局部的模糊性而错误,或者就是融入全局的信息,但有时也会导致全局与局部信息的冲突,如图所示,局部上无法识别黄色的裤子(误认...原创 2019-06-14 17:32:25 · 707 阅读 · 0 评论 -
Fast, Diverse and Accurate Image Captioning Guided By Part-of-Speech
Fast, Diverse and Accurate Image Captioning Guided By Part-of-Speech原文地址时间:2019年概括本文致力于建立一个fast,accurate,diverse的image caption模型,首先提出了传统beam search的慢、diversity不足,以及基于GAN、VAE方法的准确率不足的缺陷,然后提出了根据词性序列...原创 2019-06-07 19:36:57 · 1082 阅读 · 1 评论 -
Unsupervised Image Captioning
Unsupervised Image Captioning原文地址时间:2019 CVPRTencent AI LabIntro普遍的Image caption方法使用的是成对的数据,本文率先采用了无监督模式训练image caption模型,使用的数据不包括任何image-sentence pair本文的贡献主要有以下四点:率先使用了无监督方法来进行image caption提...原创 2019-06-07 19:36:49 · 2239 阅读 · 0 评论 -
Describing like Humans: on Diversity in Image Captioning
Describing like Humans: on Diversity in Image Captioning原文地址时间:2019 CVPRIntro当前的image captioning模型虽然在各种指标(BLEU METEOR ROUGE CIDEr)上超过了人类水平,但是这些以accuracy为度量甚至是训练目标的模型缺少了diversity,为此,本文提出了一个度量图片dive...原创 2019-06-07 19:36:37 · 795 阅读 · 0 评论 -
Very Deep Convolutional Networks For Large-Scale Image Recognition
Very Deep Convolutional Networks For Large-Scale Image Recognition原文地址时间:2014Intro本文的VGG网络在2014年的ImageNet竞赛中分别在定位和分类上获得第一和第二,主要的贡献是使用了小的(3×3)卷积核使得网络可以拓展到16-19层深。ConvNet ConfigurationsArchitectur...原创 2019-06-07 19:36:30 · 607 阅读 · 0 评论 -
CapSal: Leveraging Captioning to Boost Semantics for Salient Object Detection
CapSal: Leveraging Captioning to Boost Semantics for Salient Object Detection时间:2019CVPRIntro为了解决复杂场景下的目标检测问题,本文设计了一个CapSal模型,它包括两个子网络:Image Captioning Network(ICN)和Local-Global Perception Network(...原创 2019-06-07 19:36:20 · 1401 阅读 · 0 评论 -
METEOR: An Automatic Metric for MT Evaluation with Improved Correlation with Human Judgments
METEOR: An Automatic Metric for MT Evaluation with Improved Correlation with Human Judgments原文地址时间:2005Intro对于机器翻译(Machine Translation,MT)的结果,相比人工度量,使用自动度量更块、简单、便捷,本文提出了自动度量METEOR,它解决了IBM的BLEU的缺点,...原创 2019-06-14 17:39:54 · 1338 阅读 · 0 评论 -
Show, Control and Tell: A Framework for Generating Controllable and Grounded Captions
Show, Control and Tell: A Framework for Generating Controllable and Grounded Captions原文地址时间:2019 CVPRIntro当前的多数Image caption模型缺少可控性(controllability)和可解释性(explainablity),这使得它与人类智能不同,因为人类能够选择各种描述图片的...原创 2019-06-14 17:41:40 · 2493 阅读 · 6 评论 -
《SuperPoint:Self-Supervised Interest Point Detection and Description》笔记
文章目录《SuperPoint: Self-Supervised Interest Point Detection and Description》笔记文章解决了什么问题用了什么方法效果如何结论存在什么不足Future Work细节过程构建合成数据集训练MagicPointMagicPoint + Homographic Adaption生成pseudo ground truth选择Homogra...原创 2019-06-14 17:49:25 · 6721 阅读 · 17 评论 -
Point Novel Objects in Image Captioning
Point Novel Objects in Image Captioning原文地址时间:2019 CVPR本文与guide object那篇可做对比Intro本文要解决的问题是novel object captioning的问题当前的image captioning模型各方面表现都已不错,但最大的问题是,它通常建立在image-caption对上,导致了仅仅能够捕捉领域内的目标,且...原创 2019-06-28 16:49:33 · 950 阅读 · 2 评论 -
Exact Adversarial Attack to Image Captioning via Structured Output Learning with Latent Variables
Exact Adversarial Attack to Image Captioning via Structured Output Learning with Latent Variables原文地址时间:2019 CVPRIntro原创 2019-06-21 21:55:59 · 628 阅读 · 0 评论 -
MSCap: Multi-Style Image Captioning with Unpaired Stylized Text
MSCap: Multi-Style Image Captioning with Unpaired Stylized Text原文地址时间:2019 CVPR题外话,这篇文章思路写的非常清楚,读起来很舒服Intro当前的image captioning方法通常生成一些客观的描述,而没有关于语言学上的研究,如图,展示了不同风格的caption之前的相关工作也有将image captio...原创 2019-06-21 21:55:46 · 1596 阅读 · 2 评论 -
Self-critical n-step Training for Image Captioning
Self-critical n-step Training for Image Captioning原文地址时间:2019 CVPRIntroimage caption 传统训练方法有两个问题exposure bias,训练的时候使用ground truth词,测试的时候使用自己预测的词,不一致的预测方法,可能导致错误累积,称为exposure bias训练时以交叉熵为损失函数,测试...原创 2019-06-21 21:55:20 · 870 阅读 · 0 评论 -
Look Back and Predict Forward in Image Captioning
Look Back and Predict Forward in Image Captioning原创 2019-06-21 21:54:53 · 1363 阅读 · 0 评论 -
Intention Oriented Image Captions with Guiding Objects
Intention Oriented Image Captions with Guiding Objects原文地址时间:2019 CVPRIntroimage caption的过程缺少可控性,一张图片中可以包括很多个目标,但是一个描述只能包括其中一小部分尽管我们能找到并分类出所有目标,但是我们不能强制语言模型描述我们关心的目标本文提出了image captions with gui...原创 2019-06-21 21:54:34 · 891 阅读 · 1 评论 -
Adversarial Semantic Alignment for Improved Image Captions
Adversarial Semantic Alignment for Improved Image Captions原文地址时间:2019 CVPR,但在Arxiv上公开的时间为2018年6月IntroCIDEr、BLEU、SPICE等度量缺少了对图片和caption的语义对齐的度量,威力解决多样性和自然性的问题,image captioning模型最近在基于GANs的模型上进行探索,核心...原创 2019-06-21 21:54:18 · 1020 阅读 · 1 评论 -
Good News,Everyone! Context driven entity-aware captioning for news images
Good News,Everyone! Context driven entity-aware captioning for news images原文地址code时间:2019 CVPRIntro本文将image caption分为了三个等级,第一级是对场景中目标的枚举,第二级是基本的描述,第三级是解释,当前的image captioning系统仅仅可以做到描述那一级,而无法将任何先验...原创 2019-06-21 21:53:53 · 1216 阅读 · 2 评论 -
CIDEr: Consensus-based Image Description Evaluation
CIDEr: Consensus-based Image Description Evaluation原文地址时间:2015Intro自动度量 description of an image 的困难提出了consensus-based 的度量协议:CIDErApproach给定一副图片和一系列人给出的描述,我们的目标是估计candidate和大多数ground truth的相似性...原创 2019-05-31 20:34:16 · 1530 阅读 · 2 评论 -
ImageNet Classification with Deep Convolutional Neural Networks
ImageNet Classification with Deep Convolutional Neural Networks原文地址时间:2012IntroImageNet是一个包含15 million的高分辨率图片数据集,其中包括了22000个类别,ILSVRC(ImageNet Large-Scale Visual Recognition Challenge)使用了ImageNet的...原创 2019-05-31 20:33:57 · 449 阅读 · 0 评论 -
RCNN论文阅读笔记
RCNN论文阅读笔记原文:Rich feature hierarchies for accurate object detection and semantic segmentation时间:2014年文章解决了什么问题目标检测发展停滞,通过复杂的ensemble模型才能勉强提高一些精度用了什么方法两个 insights在bottom-up region proposals中应用卷...原创 2019-05-24 17:32:44 · 199 阅读 · 0 评论 -
Auto-Encoding Scene Graphs for Image Captioning 论文阅读笔记
Auto-Encoding Scene Graphs for Image Captioning原文地址时间:2018年Introductionend-to-end encoder-decoder模型存在一个问题:当将一张包括未见过的场景输入到网络中时,返回的结果仅仅就是一些显著的object,比如“there is a dog on the floor”,这样的结果与object dete...原创 2019-05-10 19:13:25 · 3882 阅读 · 6 评论 -
Show, Attend and Tell: Neural Image Caption Generation with Visual Attention
Show, Attend and Tell: Neural Image Caption Generation with Visual Attention原文地址时间:2015年概括提出了两个attention based model that automatically learns to describe the content of images,一个 soft attention 和...原创 2019-05-10 17:01:52 · 1233 阅读 · 0 评论 -
Image Captioning with Semantic Attention
Image Captioning with Semantic Attention原文地址inspiration当时的image caption的模式有两种top-down,将图片直接转化为词,优点是端到端,缺点是难以提取细节bottom-up,先用几个词描述图片的各个方面,然后将词组合到一起,优点是可以提取细节,缺点是没有端到端的formulation为了结合两者的优点,提出了一个...原创 2019-05-10 16:46:26 · 1026 阅读 · 0 评论 -
Deep Visual-Semantic Alignments for Generating Image Descriptions
Deep Visual-Semantic Alignments for Generating Image DescriptionsTargetgenerates natural language descriptions of images and their regionsChallenge强大的模型来处理图片信息,生成自然语言模型需要摆脱硬编码模板和一些固定模型,仅仅从数据中学习...原创 2019-05-10 15:59:20 · 2175 阅读 · 1 评论 -
Show and Tell: A Neural Image Caption Generator
Show and Tell: A Neural Image Caption GeneratorTargetAutomatically describe the content of an imageDifficultyA description must capture not only the objects contained in an image, but it also must...原创 2019-05-10 14:54:18 · 407 阅读 · 0 评论 -
Batch Normalization 论文阅读笔记
Batch Normalization:Accelerating Deep Network Traning by Reducing Internal Covariate Shift论文地址概括BN减少了internal covariate shift,后者指代训练过程中数据经过每层后发生的分布变化,因为每层微小的参数更新即会影响其输出的数据的分布,而随着网络越深,这种影响会越来越大,使得学习...原创 2019-04-08 11:57:20 · 229 阅读 · 0 评论 -
ResNet 论文阅读笔记
Deep Residual Learning for Image Recognition概括文章提出了深度残差学习网络,解决了深层网络难以优化的问题,核心思想是以学习残差代替学习直接映射,理论上这降低了网络学习到恒等映射的难度,从而使得更深的网络起码和浅的网络效果一样好文章解决了什么问题更深的神经网络更难训练,容易出现梯度爆炸和消失的问题,但初始化的正规化和中间层的正规化很大程度的降低...原创 2019-04-19 01:59:06 · 629 阅读 · 0 评论 -
Fast R-CNN
Fast R-CNN论文地址时间:2015年IntroR-CNN的缺点训练是一个多步骤的过程:fine-tune+SVM+bounding box regression训练在时间和空间上消耗很大test-time很慢R-CNN很慢的原因之一是卷积网络分别计算所有proposals,而没有共享计算(因为这些proposal大多有相交的部分)。SPPnets为了解决这个问题,先计...原创 2019-05-24 17:41:00 · 150 阅读 · 0 评论 -
Faster RCNN
Faster RCNN原文地址时间:2016年IntroSelective Search与高效的网络相比,还是大一个量级的时间复杂度,每张图片需要2s,相比于EdgeBoxes的0.2秒,使得Region proposal成为瓶颈。本文使用深度卷积网络来计算proposal,让Region Proposal Networks(RPNs)与目标检测网络共享卷积层,作者发现,卷积特征不仅能被...原创 2019-05-24 17:44:32 · 270 阅读 · 0 评论 -
Single Image Haze Removal Using Dark Channel Prior
Single Image Haze Removal Using Dark Channel Prior时间:2019Intro本文使用了一个简单高效的去雾算法,他的原理基于一个对无雾图片的统计结果,在大多数非天空局部区域中总有一个像素点的至少一个通道的值很低,由此我们可以进行去雾操作背景常用的雾的形成公式为其中I是观测到的图像,J是原图,t是透射率,A是大气光成分,去雾就是要从I恢复J...原创 2019-05-24 17:48:44 · 2359 阅读 · 0 评论 -
On the Automatic Generation of Medical Imaging Reports
On the Automatic Generation of Medical Imaging Reports原文地址时间:2018年IntroGeneration of medical image reports的困难一份完整的报告包括各种形式的信息,包括finding、tag、impression等,如图所示报告中的非正常区域很难找到报告很长,包括很多句子为了解决以上问题,我们...原创 2019-05-17 14:36:54 · 1434 阅读 · 2 评论 -
Knowledge-Embedded Routing Network for Scene Graph Generation
Knowledge-Embedded Routing Network for Scene Graph Generation原文地址时间:2019年原创 2019-05-17 14:25:38 · 1517 阅读 · 2 评论 -
Graph-Based Global Reasoning Networks
Graph-Based Global Reasoning Networks原文地址时间:2018IntroCNN擅长提取局部关系,但是在处理全局上的区域间关系时显得低效,且需要堆叠很多层才可能完成,如图所示,人类很容易能提取其中的关系,而对CNN来说却很难,因为CNN在最后几层才能有足够大的感受野,为了解决这个问题,本文提出了一个单元来直接进行global relation reasoni...原创 2019-05-17 14:00:07 · 5068 阅读 · 1 评论 -
Multi-Label Image Recognition with Graph Convolutional Networks
Multi-Label Image Recognition with Graph Convolutional Networks原文地址时间:2019年Introduction原创 2019-05-17 13:46:01 · 3439 阅读 · 2 评论 -
Exploring Visual Relationship for Image Captioning
Exploring Visual Relationship for Image Captioning论文地址时间:2018年Intro尽管当前存在很多CNN+RNN模型,还有一个未被充分研究的问题,即如何利用视觉关系来帮助image captioning。本文提出了一个GCN-LSTM模型,如图所示Contribution本文的主要贡献是提出了对视觉关系的使用Model本文通过...原创 2019-05-17 13:30:20 · 2610 阅读 · 5 评论 -
Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering
Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering原文地址时间:2018contribution提出了结合bottom-up和top-down的视觉注意力机制Model给定一张图片III,取其k个salient region的特征Bottom-Up Attention...原创 2019-05-17 12:04:19 · 1086 阅读 · 0 评论 -
Semi-Supervised Classification with Graph Convolutional Networks
Semi-Supervised Classification with Graph Convolutional Networks原问地址时间:2017Intro要解决的问题:图上的结点分类,其中只有小部分结点有label。这是一个基于图的半监督学习,可以通过在损失函数中额外加一项graph-based regularization来解决:其中L0\mathcal{L}_0L0表示l...原创 2019-05-24 17:51:20 · 4276 阅读 · 0 评论