多模态
文章平均质量分 96
不定期更新深度之眼多模态论文带读笔记
oldmao_2000
人工不智能,机器不学习。
展开
-
08.SCA-CNN
本课程来自深度之眼《多模态》训练营,部分截图来自课程视频。用于密集字幕的全卷积定位网络作者:Long Chen等单位:浙大发表时间:2017 CVPRLatex 公式编辑器第一句提出你要研究什么?视觉注意已成功应用于结构预测任务,如视觉字幕和问题回答。当前的研究做法是什么?现存的注意力机制模型大体上是空间的,例如对最后一个特征图的每一个位置赋予一个权值。这种空间注意力机制并不能有效的符合注意力机制的初衷,即:一个动态的与上下文有关系的横跨时间的特征提取器。原创 2023-09-07 11:03:51 · 221 阅读 · 0 评论 -
07.Knowing When to Look
本课程来自深度之眼《多模态》训练营,部分截图来自课程视频。用于密集字幕的全卷积定位网络作者:Jiasen Lu等单位:弗吉尼亚理工大学发表时间:2016 CVPRLatex 公式编辑器铺垫现有的问题是什么?基于注意力的神经网络编码器-解码器框架已被广泛用于图像caption任务。大多数方法都强迫视觉注意力对每个生成的单词都处于激活状态。然而,解码器在预测 "the "和 "of "等非视觉单词时,可能几乎不需要来自图像的视觉信息。原创 2023-09-01 10:05:27 · 422 阅读 · 0 评论 -
06.DenseCap
本课程来自深度之眼《多模态》训练营,部分截图来自课程视频。用于密集字幕的全卷积定位网络作者:Justin Johnson+AK+李飞飞单位:斯坦福发表时间:2016 CVPR ORALLatex 公式编辑器我们介绍了密集caption任务,该任务要求计算机视觉系统既能定位图像中的突出区域,又能用自然语言对其进行描述。当描述由单个单词组成时,密集caption任务将物体检测任务和当一个预测区域覆盖整个图像时的图像字幕任务进行了概括。原创 2023-08-28 17:14:09 · 290 阅读 · 0 评论 -
05.Image Captioning with Semantic Attention
本课程来自深度之眼《多模态》训练营,部分截图来自课程视频。神经图像描述生成作者:Quanzeng You等单位:罗切斯特大学+Adobe研究中心发表时间:2016 CVPRLatex 公式编辑器第一句先讲Image Caption任务的难度与重要性第二句讲现有的方法,当时的image caption的模式有两种:top-down,将图片直接转化为词,优点是端到端,缺点是难以提取细节。原创 2023-08-26 14:01:56 · 224 阅读 · 0 评论 -
04.Show, Attend and Tell
本课程来自深度之眼《多模态》训练营,部分截图来自课程视频。神经图像描述生成作者:Kelvin Xu等单位:多伦多+蒙特利尔大学发表时间:2015 ICMLLatex 公式编辑器第一句,总体描述,黑体部分破题:基于注意力的模型我们。。。我们还。。。(这部分工作是重点)SOTA描述。原创 2023-08-19 14:20:47 · 368 阅读 · 0 评论 -
03.Show and Tell
本课程来自深度之眼《多模态》训练营,部分截图来自课程视频。神经图像描述生成作者:Oriol Vinyals等单位:谷歌发表时间:2015 CVPRLatex 公式编辑器开门见山:自动描述图像内容是连接计算机视觉和自然语言处理的人工智能中的一个基本问题。我们干了什么:在本文中,我们提出了一种基于深度循环架构的生成模型,它结合了计算机视觉和机器翻译的最新进展,可用于生成描述图像的自然语句。该模型被训练以最大化给定训练图像的目标描述句子的可能性。原创 2023-08-14 18:21:28 · 214 阅读 · 0 评论 -
02.Deep Visual-Semantic Alignments for Generating Image Descriptions
本课程来自深度之眼《多模态》训练营,部分截图来自课程视频。用于生成图像描述的深度视觉语义对齐作者:AK和李飞飞单位:斯坦福发表时间:2015 CVPR看过斯坦福cs231n课程的应该记得,有一次课外作业就是做这个。开门见山第一句点题,同时也指出本文的目标是that从句中描述的事:我们提出了一个生成图像及其区域的自然语言描述的模型。用几句话简单介绍模型:我们的方法利用图像数据集及其句子描述来了解语言和视觉数据之间的模态间对应关系。原创 2023-08-12 16:24:50 · 367 阅读 · 0 评论 -
01.CLIP
本课程来自深度之眼《多模态》训练营,部分截图来自课程视频。从自然语言监督中学习可转移的视觉模型作者:Alec Radford等单位:Open AI发表时间:2021 arxiv在构建计算机视觉模型时,只是为了某一个或某一组任务而构建数据集,往往需要大量的劳动力来进行数据标注,并且数据集的构建成本很高。而且,这些标准的计算机视觉模型擅长一类任务,甚至只擅长这一类任务。若是想要让模型适应新的任务需要花费大量的精力和成本。同时,一些训练时表现好的模型可能在测试中表现不佳。原创 2023-08-07 17:39:10 · 247 阅读 · 0 评论