![](https://img-blog.csdnimg.cn/20201014180756757.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
论文笔记
文章平均质量分 91
图像描述方向的论文笔记
刚学编程的小白( •̥́ ˍ •̀ू )
即使再小的帆也能远航!
展开
-
论文笔记:Skeleton Key: Image Captioning by Skeleton-Attribute Decomposition
不仅用于预测当前的骨架词,还用于指导接下来的属性词预测,我们从 Skel-LSTM 获得的注意力信息可以在 Attr-LSTM 中重复使用,以指导在哪里关注。因为骨干句子中的目标词和该词的属性词是在同一个关注区域的。提出了一种 coarse-to-fine 的算法,以两阶段的方式生成图像的描述:首先,生成图像描述的骨架句子,包含图像中涉及的主要对象词及其关系词。提出了一种使用单个模型生成可变长度的句子的机制,这使我们能够根据用户的需求来调整图像描述生成的长度,其中句子包含不同数量的对象词和属性词。原创 2022-09-30 13:58:33 · 672 阅读 · 1 评论 -
论文笔记:SemStyle: Learning to Generate Stylised Image Captions using Unaligned Text
使用 FrameNet 框架来代替动词,FrameNet 是语义框架的词汇数据库。例如 sitting, laying, parking 全被映射到 Placing 的语义框架。上表包含五个常用的动词框架。我们使用标记工具 SEMAFOR 来注释框架。然后我们将这些原始单词映射到一个简化的词汇表中。语义词的顺序与原句中的顺序相同。原创 2022-09-15 20:57:03 · 675 阅读 · 0 评论 -
论文笔记:Regularizing RNNs for Caption Generation by Reconstructing The Past with The Present
传统的解码器依赖于输入的转换算子来生成描述,单词 y的生成是以第 t 时间步的 h为条件,但它没有充分利用以前的隐藏状态 h。RNN 中训练和推理之间的差异(exposure bias)仍然存在。原创 2022-09-15 20:54:59 · 244 阅读 · 0 评论 -
论文笔记:Convolutional Image Captioning
近年来,使用由长短期记忆 (LSTM) 单元驱动的循环神经网络,在图像描述方面取得了重大进展。尽管它缓解了梯度消失问题,并且具有强大的记忆依赖性的能力,但 LSTM 单元是复杂的,并且在时间上具有内在的顺序性。原创 2022-09-15 20:52:27 · 536 阅读 · 0 评论 -
论文笔记:Auto-Encoding Scene Graphs for Image Captioning
感觉这篇论文老多地方没读懂!😭。原创 2022-08-25 18:55:52 · 1064 阅读 · 1 评论 -
论文笔记:Pointing Novel Objects in Image Captioning
现在的 image caption 模型最关键的限制之一就是它们通常建立在许多 image -caption 对上,即它们只包含了视野中主要的目标。这阻碍了这些模型去描述图片中除了主要部分的新场景或新对象。原创 2022-08-25 18:52:18 · 325 阅读 · 0 评论 -
论文笔记:Show, Control and Tell:A Framework for Generating Controllable and Grounded Captions
现在的图像描述模型仍然缺乏可控性(controllability)和可解释性(explainablity)——即它们的行为很难受到影响和解释。例如,在注意力驱动模型的情况下,架构隐含地选择在每个时间步关注哪些区域,但无法从外部进行监督。虽然可以以多种方式描述图像,但这种架构无法控制描述哪些区域以及每个区域的重要性。这种缺乏的可控性造成了人与人工智能之间不同,因为人类可以以各种方式描述图像,并根据任务和手头的上下文选择最合适的方式。图:(a)是具有全局视觉特征的图像描述模型;...原创 2022-08-25 18:49:38 · 763 阅读 · 0 评论 -
论文笔记:Intention Oriented Image Captions with Guiding Objects
现在的图像描述生成过程的控制方面受到限制,例如一张图片可能包含许多对象,但描述句子通常只包含一个或少量对象,虽然我们可以使用现有方法准确分类或检测图像中的对象 ,我们不能强迫语言模型来描述我们关心的对象。...原创 2022-08-25 18:46:27 · 273 阅读 · 0 评论 -
论文笔记:Look Back and Predict Forward in Image Captioning# Look Back and Predict Forward in Image Capti
大多数现有的基于注意力的图像描述方法都在一个时间步内关注当前单词和视觉信息并生成下一个单词,而不考虑视觉和语言的连贯性。原创 2022-07-16 18:06:37 · 611 阅读 · 1 评论 -
论文笔记:Self-critical Sequence Training for Image Captioning
文本的生成模型通常经过训练,以使用反向传播在给定前一个ground-truth单词的情况下最大化下一个ground-truth单词的可能性。这种方法被称为”TeacherForcing“。但是,这种方法会在训练和测试之间造成不匹配,因为在测试时,模型使用模型分布中先前生成的单词来预测下一个单词。这种exposurebias会导致测试时生成过程中的错误累积,因为该模型从未暴露于自己的预测中。...原创 2022-07-16 18:03:24 · 1647 阅读 · 1 评论 -
论文笔记:Neural Baby Talk
现代神经网络图像描述方法产生的自然语言描述虽然比较流畅,但是都是依靠语言模型去生成句子,往往不太依赖于图像。原创 2022-07-16 17:59:33 · 689 阅读 · 0 评论 -
论文笔记:Knowing When to Look: Adaptive Attention viaA Visual Sentinel for Image Captioning# Knowing Whe
语言中的一些非视觉词汇(虚词和惯用词汇),如英语的“the”和“of”或者“behindaredstop”后接“sign”,生成这些词并不需要很多的视觉信息,而更多的来源于我们的语言模型。原创 2022-07-16 17:51:55 · 324 阅读 · 0 评论 -
论文笔记:SCA-CNN: Spatial and Channel-wise Attention in Convolutional Networksfor Image Captioning
本文采用流行的编解码器框架来生成图像字幕,其中CNN首先将输入图像编码成一个向量,然后LSTM将该向量解码成一个单词序列。本文的主要改进在CNN特征提取方面上。某一层的运算流程如下公式假设我们想要生成图像标题的第t个单词。其中,Xl-1是调制的特征;Vl是CNN输出的特征图(卷积,然后池化,下采样或卷积);Φ\PhiΦ(.)是空间和通道方向的注意力函数(后面详细介绍);γ\gammaγ是空间和通道方向的关注权重;f(·)是调制CNN特征和关注权重的线性加权函数,应用了按元素相乘。t∈。...原创 2022-07-16 17:49:28 · 1087 阅读 · 0 评论