论文笔记
文章平均质量分 92
大烤翅
这个作者很懒,什么都没留下…
展开
-
视频分类的类间和类内关系——正则化
Abstract 本文提出了一个新的框架,联合学习特征关系并利用类关系来提高视频分类性能。具体而言,这两种类型的关系是通过在深度神经网络(DNN)中严格实施正则化来学习和利用的。 贡献:我们建议对DNN中的融合层进行结构正则化,以识别多个特征的相关性,同时保持其多样性。这种独特的能力使所提出的方法不同于大多数现有的工作,这些工作通常采用浅层融合过程,而不考虑对特征相关性的深入探索。 我们还建议通过对DNN的输出层施加类似的结构正则化来探索类间关系。因此,跨功能和类间关系都是在一个统一的框架..原创 2022-05-27 15:18:00 · 745 阅读 · 0 评论 -
Learning Representations For Images With Hierarchical Labels(五)
Chapter 5 方法:基于保序嵌入的模型5.1 余弦嵌入图5.1.利用改进的逐层模型的潜在空间提取标签嵌入。在原始模型的最后一层之后添加一个附加层。该模型的训练方式与L-Ni-way分类器完全相同。标记为N×Li的层的权重保持了这里标记的N维表示,N=2,但是它可以扩展到任何N维嵌入空间。 对于余弦嵌入,我们从训练用于图像分类的CNN的潜在空间中提取标签表示。学习到的表示是模型仅为图像分类而明确训练的副产品。需要注意的是,余弦嵌入不一定是保序的,但在本章中与所有其他基于嵌入的模型一起.原创 2022-04-10 15:45:58 · 3415 阅读 · 0 评论 -
Learning Representations For Images With Hierarchical Labels(四)
Chapter 4 实证分析:将标签层次结构注入CNN分类器在本章中,我们描述了用于评估我们帮助分类器利用标签层次结构的方法的数值实验。在讨论实验细节之前,我们将讨论在不同模型之间比较性能指标的选择。4.1 性能指标为了量化性能,我们使用微观和宏观平均分数。尽管微积分的贡献与类别规模成比例,但最终却掩盖了不太频繁出现的类别。这样的模式在很大程度上是具有层次标签的数据集的一部分,因为层次结构的更高级别的类抽象了它们的后代,与下面的类相比,具有更多的样本,而层次结构的叶节点具有最少的样本数。相比之下原创 2022-04-10 15:13:43 · 1769 阅读 · 0 评论 -
Learning Representations for(三)
Chapter 3 方法:将标签层次结构注入CNN分类器在本章中,我们提出了基于CNN的模型,使用卷积层来提取视觉特征和分类图像。CNN本身的体系结构没有被修改,而是更多地关注如何使用不同的概率分布公式(跨标签)来增量地向模型传递更多关于标签层次结构的信息。本章详细描述了5个模型,其中第一个模型是对标签层次结构中的任何信息都不可知的基线。其余4个模型逐渐向模型提供更多信息,例如层次结构中的层数和不同标签之间的边。3.1 层次不可知分类器作为baseline,我们使用了最先进的卷积神经网络(CNN原创 2022-04-10 14:27:30 · 3663 阅读 · 0 评论 -
Learning Representations For Images With Hierarchical Labels(一、二)
1 Introduction1.1 Motivation这项工作试图利用分层标签形式的语义信息。作者提出,当提供这样的指导时,视觉模型的性能优于层次不可知的模型。作者还展示了如何通过使用更明确的表示模型(如Embedding)来实现图像分类任务,从而提高这些模型的可解释性。1.1.1 利用标签之间的相互关系这种模型仅根据视觉信号进行分类。这些模型只捕获标签-图像的相互关系,不使用有关标签间交互的其他可用信息,这些信息可以提高性能,并使模型更易于理解。1.1.2 长尾数据分布数据分..原创 2022-04-07 18:06:44 · 3199 阅读 · 0 评论 -
Destruction and Construction Learning
本文的主要工作是什么?提出了一种“破坏与构造”学习方法,除了标准的分类主干网络之外,还引入了一个“破坏与构造”流,先“破坏”再“重建”图像,学习有区分度的区域和特征。具体来说,“破坏”就是首先将输入图像划分为局部区域,然后通过区域混淆机制(RCM)对它们进行打乱。为了正确识别这些被破坏的图像,分类网络必须更多地关注有区分度的区域,以发现差异。为了补偿RCM引入的噪声,采用对抗性损失来抑制RCM引入的噪声模式,以区分原始图像和被破坏图像。而“构建”就是,遵循区域对齐网络,试图恢复局部区域的原始空间原创 2022-04-06 16:47:13 · 1568 阅读 · 0 评论 -
Fine-grained visual classification via progressive multi-granularity training of jigsaw patches
1 Introduction早期的工作主要是在人工注释的帮助下发现有区别的区域[2,21,34,37,16]。然而,人工注释很难获得,而且往往容易出错导致性能下降[38]。因此,研究重点已转移到仅给出类别标签的弱监督训练模型[38,35,31,4]。这些模型背后的成功在很大程度上归功于能够定位更具辨别力的局部区域进行下游分类。然而,对于(i)哪些粒度是最具辨别力的局部区域,例如鸟的头部或喙,以及(ii)如何将不同粒度之间的信息融合在一起以达到分类精度,例如头部和喙可以组合在一起,我们几乎没有或几乎没有做原创 2022-04-01 17:34:52 · 1025 阅读 · 0 评论 -
基于层次语义嵌入的细粒度表示学习与识别
摘要摘要部分介绍了一下层次语义相关性在目前的细粒度识别研究中往往被忽视,这里举了一个例子:鸟类可以根据目、科、属和种的四个层次进行分类。这种层次结构编码了不同级别的不同类别之间的丰富相关性,可以有效地规范语义空间,从而减少预测的模糊性。 在这项工作中,通过开发一种新的层次语义嵌入(HSE)框架,研究同时预测层次结构中不同级别的类别,并将这种结构化的相关信息集成到深度神经网络中。具体而言,HSE框架按顺序预测层次结构中每个级别的类别得分向量,从最高到最低。在每一级,它都将更高级别的预测得分向量作为先.原创 2022-03-26 14:42:56 · 4279 阅读 · 1 评论 -
Embedding Label Structures:细粒度特征表示的标签结构嵌入
文章解决什么问题?现有方法很少关注到结构性的特征表示。为了获得细粒度特征表示,一种方法是学习相似性度量,但是这种方法受到两个限制:1)分类精度可能比不上在分类loss上微调的深度模型,收敛速度慢,2)没有利用标签的结构 针对这个问题,文章的贡献:1)一个多任务深度学习框架,在不需要牺牲分类精确度的前提下,有效地学习细粒度特征表示。具体来说,我们在CNN中联合优化分类loss(即softmax)和相似性loss(即:triplet),这既可以产生分类结果,也可以产生具有区分度的特征表示。2)此外,基于这个框原创 2021-11-13 22:04:12 · 3083 阅读 · 0 评论 -
地理感知的网络
摘要 细粒度识别根据细微的视觉差异来区分类别。为了区分这些具有挑战性的视觉类别,利用其他信息是很有帮助的。地理定位是一个丰富的附加信息源,可用于提高细粒度分类精度,但尚未得到研究。我们对这一领域的贡献是双重的。首先,据我们所知,这是第一篇系统地研究了通过使用地理定位先验、后处理或特征调制将地理定位信息纳入细粒度图像分类的各种方法的论文。其次,为了克服没有细粒度数据集具有完整地理位置信息的情况,我们发布了两个具有地理位置信息的细粒度数据集,为现有的流行数据集(iNaturalist和YFCC100M)..原创 2021-11-11 21:17:23 · 2705 阅读 · 1 评论 -
LIO pipeline:在目标识别中关注结构信息
摘要 大多数物体识别方法主要关注于识别的视觉模式,而忽略了物体的整体结构。虽然结构建模很重要,但通常需要大量的手工注释。在本文中,我们提出,通过将自监督纳入传统框架来“观察对象”(但本质上是对对象结构建模)。我们表明,识别backbone可以大大增强,以实现更健壮的表示学习,而不需要额外的注释和推理速度。具体来说,我们首先提出了一个对象范围学习模块,用于根据同一类别中实例之间共享的视觉模式来定位对象。然后,我们设计了一个空间上下文学习模块,通过预测范围内的相对位置来建模对象的内部结构。在训练期间,这两.原创 2021-11-01 21:28:39 · 379 阅读 · 0 评论 -
用于图像识别的局部关系网络
Local Relation Networks for Image RecognationICCV 2019摘要 多年来,卷积层一直是计算机视觉领域中主要的特征提取方法。 然而,卷积中的空间聚合基本上是一个模式匹配过程,它使用固定的滤波器,在建模不同空间分布的视觉元素时效率很低。这篇文章提出了一个能够基于局部像素对的组合关系自适应确定聚合权值的图像特征提取方法,称作局部关系层。使用这种关系方法,它可以以一种更有效的方式将可视化元素组合到更高级的实体中,这有利于语义推理。在像ImageNet分类这..原创 2021-10-31 16:25:48 · 573 阅读 · 0 评论 -
用于细粒度图像分类的通道交互网络
作者:Yu Gao, Xintong Han, Xun Wang, Weilin Huang∗, Matthew R. Scott机构:码隆科技(深圳)文章提出了什么问题?文章用什么模型来解决问题?摘要 细粒度图像分类由于类内微小的差异而具有挑战性。我们假定利用通道之间丰富的关系可以帮助捕获这些差异,因为不同的通道对应不同的语义。在这篇文章中,我们提出一个通道交互网络(CIN),它对图像内部和图像之间的通道交互进行了建模。对于单个图像,提出了一个自通道交互(SCI)模块来探索图像中的通.原创 2021-10-23 17:29:43 · 3773 阅读 · 0 评论 -
FineGAN:细粒度对象生成和发现的无监督层次解耦
摘要 我们提出一个新颖的无监督GAN框架FineGAN,它能够解耦背景、对象形状和对象的外观来层次地生成细粒度对象分类的图像。为了不使用监督来解耦这些变量,我们的核心思想是使用信息原理来将每个变量和一个隐编码相关联,用一个特定的方法来训练这些编码之间的关系,以诱导需要的层次。通过大量的实验,我们证明FineGAN达到了期望的解耦,生成细粒度类别的鸟类、狗和汽车的真实和多样的图像。利用FineGAN的自动学习特征,我们还对真实图像进行聚类,作为解决无监督细粒度对象类别发现这一新问题的首次尝试。我们的co.原创 2021-10-21 14:51:08 · 1199 阅读 · 0 评论 -
三线性注意力采样网络——用于细粒度图像识别
CVPR2019——论文链接摘要 学习精细有区分度的特征(例如鸟喙和鸟的眼睛)在细粒度图像识别中起着十分重要的作用。现有的基于注意力的方法通过定位和放大重要部位来学习细粒度细节,但常常受到part数量和繁重的计算开销的限制。在这篇文章中我们提出,通过三线性注意力采样网络(TASN)给出的数百个part proposals,学习细粒度特征。特别地,TASN包括:1)一个三线性注意力模块,通过对通道间关系的建模来生成注意力图;2)一个基于注意力的采样器,突出高分辨率的注意力part;3)一个特征蒸馏器.原创 2021-10-16 20:20:21 · 2054 阅读 · 0 评论 -
CVAE-GAN:通过不对称学习生成细粒度图像
摘要 Abstract我们提出了可变的生成对抗网络,一个大体上包含一个采用生成式对抗网络的可变自动编码器原创 2021-10-12 20:53:24 · 1741 阅读 · 0 评论 -
论文速读 深度多物种嵌入模型
摘要理解物种是如何跨板块跨时间分布是生物搜索中的一个基本问题。但不幸的是,大多数的物种分布模型只能一次指向一个物种,尽管已经有强有力的生态学证据表明物种的分布不是独立的。我们提出了深度多物种嵌入模型(Deep Multi-species Embedding,DMSE),能够通过一个深度神经网络,将与多物种相关的向量和表示环境变化的向量联合嵌入到一个共有的高维特征空间。...原创 2021-09-23 15:57:19 · 442 阅读 · 0 评论 -
2021-09-18
4.3 量化评估 Quantitative Evaluation在上表中,我们通过和一些baseline对比,评估了我们的时空先验对于图像分类表现的改善效果。我们发现,在baseline的基础上为最近邻的输出添加一个先验能够提高他们的表现。在训练集中没有对象出现在测试集的位置上时,可以增加鲁棒性。这种统一的先验知识的缺少解释了[55]中基于最近邻的方法的较差结果。和Tang等人的方法[55]对比,我们联合训练一个线性层来嵌入原始位置信息,同时输出层将位置嵌入与图像分类器最后一个线性层的特征相结合。图原创 2021-09-18 12:40:34 · 117 阅读 · 0 评论 -
2021-09-16(一)
摘要 Abstraction仅仅靠外观信息,想要精细地区分细粒度视觉分类往往是不够的。专家使用额外的线索来形成他们的最终决定,例如给定的图像是在何时何地被摄影。在许多在线图像的收集中,文字信息是稳定可获得的,但是在当下的图像分类中却没有被充分使用,因为目前的图像分类更关注单独基于图像的内容来进行预我们提出了一种有效的时空先验,给定地理位置和时间作为条件,估计一个给定的对象分类在该地点出现的概率。我们的先验是根据presence-only观测数据,模型对象的联合分类,以及它们的时空分布和摄影师偏好来训原创 2021-09-16 16:56:58 · 1561 阅读 · 3 评论 -
面向大规模图像检索的层次语义索引
摘要本文讨论的是相似图像检索的问题,特别是在百万到十亿级别的大规模数据集上。核心新贡献是一个利用先进的语义层次知识的方法。当语义标签和与它们相关的层次结构在训练中可用时,相似图像检索会获得显著的改进。一些优势来源于使用额外的信息的能力,我们的实验探索一种特殊的情况——在没有额外提供数据的情况下,新方法的表现也胜过了目前相似度学习领域的最先进方法OASIS。对于规模更大的问题,利用层次关系是最重要的,因为在这些问题中,可扩展性变得至关重要。我们提出的学习方法基本上是可并行的,因此比以前的工作更易于扩展。.原创 2021-09-13 11:30:18 · 429 阅读 · 0 评论 -
Your “Flamingo“ is My “Bird”:Fine-Grained or Not
摘要 Abstract“你在图中看到的是火烈鸟还是一只鸟?”,这是这篇文章开头提出的问题。当细粒度视觉分类(Fine-Grained Visual Classification,FGVC)在努力实现前者(火烈鸟)的目标时,对于我们中的大多数非专业鸟类学者,了解到它是一只鸟可能就已经足够了。问题:我们该怎样为具有不同专业程度背景的人,改变不同的细粒度定义?引出:为此我们重新设想,将传统的FGVC由单一标签分类,变为自顶向下遍历一个预定义的、从粗到细的标签层次结构。也就是,"鸟类"→“火烈鸟目”→“原创 2021-09-12 16:51:16 · 758 阅读 · 1 评论