![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
论文笔记
文章平均质量分 63
王权大宝
这个作者很懒,什么都没留下…
展开
-
《Show and Tell: A Neural Image Caption Generator》笔记
CVPR 2015在《Show and Tell: A Neural Image Caption Generator》1这篇文章中作者将机器翻译中的“Encoder+Decoder”的模式应用到图像描述中,也就是用一个CNN作为编码器,得到图片的表征向量,然后LSTM作为解码器,将图像特征“翻译”为一个句子。这种方法是将整张图片都表示成为一个嵌入向量,在比较复杂的场景里必然会丢失一些局部信...原创 2019-03-08 16:43:07 · 859 阅读 · 0 评论 -
《Self-critical Sequence Training for Image Captioning》笔记
CVPR 2017《Self-critical Sequence Training for Image Captioning》这篇文章提出了一个新的基于强化学习的图像描述方法的目标函数,解决的传统目标函数曝光偏差的问题,流程如下所示:序列生成可以看作一个强化学习的问题,生成序列的LSTM看作一个“智能体”,单词和图像特征看作“环境”,网络参数定义为“策略”,最后推测的“动作”就是预...原创 2019-07-02 22:00:08 · 1219 阅读 · 0 评论 -
《Phrase-based image caption generator with hierarchical LSTM network》笔记
大多数的图像描述都是一次性生成一整个句子,忽略了句子的语法结构。《Phrase-based image caption generator with hierarchical LSTM network》这篇文章从短语出发,用两层LSTM先生成短语,再生成句子。给定一个CNN编码的图片,首先用短语解码器解码为名词短语(NP),这些名词短语描述图片中的实体域,同时短语解码器也编码每个NP为一个组合...原创 2019-07-08 11:49:42 · 207 阅读 · 0 评论 -
《Learning Object Context for Dense Captioning》笔记
CVPR 2019《Learning Object Context for Dense Captioning》是针对密集描述提出的方法,密集描述类似目标检测,需要定位图像中的感兴趣的区域,还要为区域生成描述。这篇文章提出了一个新的架构来为每个描述区域学习一个互补对象上下文。首先检测一系列对象,逐步在LSTM中输入这些对象,每一步都根据先前的状态和当前输入决定是否保留当前信息,最终输出学习的...原创 2019-06-10 22:08:31 · 386 阅读 · 0 评论 -
《Context and Attribute Grounded Dense Captioning》笔记
CVPR 2019《Context and Attribute Grounded Dense Captioning》这篇文章设计了一个端到端基于文本和属性的描述架构,由上下文视觉挖掘模块和基于多层属性的描述生成模块两部分组成,同时还结合了来自分层语言的辅助监督,以增强学习的描述的独特性。具体架构如下图所示:第一部分,上下文特征提取器(CFE)。先用Faster RCNN学习输入图像...原创 2019-05-07 11:15:55 · 666 阅读 · 0 评论 -
《Stack-Captioning: Coarse-to-Fine Learning for Image Captioning》笔记
AAAI 2018《Stack-Captioning: Coarse-to-Fine Learning for Image Captioning》提出了一个由粗到细的多级预测架构——堆叠注意力模型,由多个解码器组成,每个解码器在前一个解码器的输出上操作,产生越来越精细的描述。架构如图所示:第一个LSTM生成粗级图像描述,随后的LSTM作为细化解码器。给定图片,模型生成的描述为,...原创 2019-05-14 11:22:27 · 842 阅读 · 0 评论 -
《Semantic Compositional Networks for Visual Captioning》论文笔记
CVPR 2017Semantic Compositional Networks(SCN)有效的组合各个标签,来生成描述图像整体意义的描述。《Semantic Compositional Networks for Visual Captioning》也是CNN-LSTM结构,但SCA扩展传统LSTM的每个权重矩阵为依赖于标签的权重矩阵的集成,这取决于标签存在于图像中的概率。给定图片I,...原创 2019-05-04 20:38:20 · 487 阅读 · 0 评论 -
《Neural Baby Talk》笔记
cvpr 2018大多数图像描述的方法可以分类两类,经典的槽填充和现代神经描述方法。《Neural Baby Talk》协调了这两种方法,首先生成一个句子模板,这个模板的插槽位置明确的与特定的图像区域相关联。这些插槽随后由被对象检测器在区域中识别出来的视觉概念填充。整个模型有两个阶段,是端到端可区分的。尽管现在图像描述的方法加入了注意力,但这些方法仍然缺少视觉基础,没有将命名的概念与图...原创 2019-04-23 09:38:04 · 904 阅读 · 0 评论 -
《Image Captioning with Semantic Attention》笔记
cvpr 2016图像描述有两种基本模式:top-down和bottom-up。top-down模式就是从图像的一个要素出发,转化它为单词,这类方法很难注意细节。bottom-up模式首先提出描述图像各个方面的单词,然后组合这些单词,这类方法从独立的方面形成句子,缺少端到端形式的训练。此外,人们描述图像时倾向于谈论图像中语义上更重要的区域或目标对象。《Image Captioning wi...原创 2019-04-09 12:28:33 · 1363 阅读 · 0 评论 -
《GroupCap: Group-based Image Captioning with Structured Relevance and Diversity Constraints》论文笔记
CVPR 2018 腾讯团队目前,大多数图像描述工作都是基于单个图像的在线描述,忽略了群组图像之间的关联度和多样性。在许多真实世界的应用程序中,如描述相册或事件,图像不适合单独描述。《GroupCap: Group-based Image Captioning with Structured Relevance and Diversity Constraints》这篇论文提出提了基于群组的...原创 2019-03-25 22:31:28 · 688 阅读 · 0 评论 -
《SCA-CNN: Spatial and Channel-wise Attention in Convolutional Networks for Image Captioning》论文笔记
CVPR 2017人类的视觉不会立即关注图像的整体,只在需要的时间和地点关注于整个视觉空间的选择性部分。CNN通过层叠的视觉抽象提取图像特征,3D特征图的2D切片编码由一个过滤器信道收集的空间视觉响应。每个过滤器作为一个模式检测器,底层检测边、角特征,高层检测语义特征。因此,CNN提取的图像特征有三个特点:Spatial、channe-wise、muli-layer。《SCA-CNN:...原创 2019-03-18 17:01:48 · 1670 阅读 · 0 评论 -
《Knowing When to Look: Adaptive Attention via A Visual Sentinel for Image Captioning》笔记
CVPR 2017基于注意力的编码器-解码器架构的图像理解方法大多强制注意力机制对生成的每个单词都生效,但预测“the”、“a”这类非视觉词汇不需要太多的信息。《Knowing When to Look: Adaptive Attention via A Visual Sentinel for Image Captioning》文章中提出了一个带有“视觉哨兵”概念的新兴型自使用注意力模型。...原创 2019-03-11 15:57:38 · 575 阅读 · 0 评论 -
《Good News, Everyone! Context driven entity-aware captioning for news images》笔记
这篇文章能够利用与图像相关的新闻文章的文本来提供上下文信息。这个模型能够有选择的从由视觉线索引导的文章中提取信息,并且动态的将输出字典拓展到出现在上下文源中的词典外的命名实体。同时作者还提出了一个新闻图像描述数据集“GoodNews”。用于上下文驱动的实体感知描述的模型由两个连续阶段组成:(1)输入图像和对应的新闻文本,生成一个句子模板,其中占位符用来指示命名实体的位置;(2)在整个文章上的注...原创 2019-07-26 16:01:05 · 485 阅读 · 0 评论