论文笔记
文章平均质量分 90
记录阅读的论文
詹姆斯德
努力变得靠谱
展开
-
论文笔记:Dual-Level Collaborative Transformer for Image Captioning
前言论文详情可以参照这篇,写得很好。本小白这篇内容主要是对论文中的一些思想和图以及部分公式进行自己的解读。如有错误,请多多谅解。论文思想首先,根据论文第一作者在知乎所说(搜这篇论文名称可以看到),自从2018年CVPR《Bottom-up and top-down attention for image captioning and visual question answering》(这篇论文的解析在这里)提出以来,image caption一直使用的是BUTD提供的Object Re..原创 2022-03-24 15:17:27 · 5210 阅读 · 0 评论 -
论文笔记:Beyond a Pre-Trained Object Detector:Cross-Modal Textual and Visual Context for Image Caption
Xmodal-Ctx 建议在以往的架构中添加一个辅助输入,用于表示缺失的信息(例如对象关系)。Xmodal-Ctx 对每个组件和预训练多模态模型的重要性进行了全面分析,验证了其在图像描述生成任务上的有效性原创 2022-10-27 15:34:15 · 1752 阅读 · 0 评论 -
论文记录:图像描述技术综述
文章目录 前言 一、什么是image caption? 二、基于深度学习的图像描述方法 1.基于编码器-解码器的方法 2.基于注意力机制的方法 3.基于生成对抗网络的方法 4.基于强化学习的方法 5.基于密集描述的方法 总结 前言因为实验室研究方向是image caption,所以最近开始阅读一些image caption的综述。一、什么是image caption?图像描述技术,就是以图像为输入,通过数学模型和计算使计算机输出对...原创 2022-03-14 16:03:36 · 5798 阅读 · 3 评论 -
论文笔记:Bottom-Up and Top-Down Attention for Image Captioningand Visual Question Answering
前言这篇文章是本人第一次看image caption相关类型的文章,参考了很多的笔记,但是总有一些地方还是有一些不理解,所以决定自己写一份笔记记录,并且只看image caption相关部分,VQA就没有看。小白一枚~有说的不对的请多指教一、阅读这篇论文的目的?了解何为自顶向下和自底向上,这两者组合的注意力机制又是怎么应用于image caption。首先第一个问题,原文中的introduction就告诉了我们:在本文中,我们采用了类似的术语,将由非视觉或任务特定情境驱动的注意机制...原创 2022-03-17 17:12:56 · 5016 阅读 · 1 评论 -
论文笔记:Meshed-Memory Transformer for Image Captioning
前言在看这篇论文之前首先要了解transformer,如果还没了解的需要先去看transformer。本小白是在学习了transformer之后,开始阅读使用transformer来做image caption的文章。这篇论文是CVPR2020的一篇论文,作者在摘要中提到虽然基于Transformer的体系结构代表了序列建模任务(如机器翻译和语言理解)的最新水平。然而,它们对图像描述等多模态上下文的适用性仍然有待探索,所以作者为了fill the gap ,提出了M^2(Meshed Transfo..原创 2022-03-22 20:29:38 · 2322 阅读 · 0 评论