Unsupervised Feature Learning via Non-Parametric Instance Discrimination

论文地址:Unsupervised Feature Learning via Non-Parametric Instance Discrimination
github代码:NCE代码

摘要:

在有标签数据上训练的神经网络分类器能够很好的捕捉图片间的视觉相似性。文章假设:我们能通过训练基于实例(将每一个样本视为单独的类别)的分类器代替基于类别的分类器,得到可以捕捉视觉相似性的特征表达。我们将其总结为非参数化实例级判别,并且通过**噪声对比估计(noise-contrastive estimation)**解决大量实例类别引起的计算困难。
我们的实验证明了,在无监督学习的限制下,我们的方法在ImageNet数据集上超越了当前最好方法。采用更多的训练数据和更先进的网络结构,我们的方法能够进一步提高分类准确率。通过微调学习到的特征,我们能观察到与半监督学习和目标检测任务上相当的结果。同时,我们的非参数化模型十分紧致:每张图片仅需要提取128维的特征,百万量级的图片也仅需要600MB存储空间,使得实际运行时能够很快达成近邻检索的目的。

引言

研究者在本文中提出的无监督学习的创新方法源于对监督学习物体识别结果的一些观察。在 ImageNet 上,top-5 分类误差远低于 top-1 误差 ,并且图像在 softmax 层输出中的预测值排第二的响应类更可能与真实类有视觉关联。

如图 1 所示,包含猎豹(leopard)的图像被识别成美洲豹(jaguar)的概率比识别成书柜(bookcase)高很多 [11]。这一观察表明,经典的判别式学习方法在没有干预时可以自动发现语义类别之间的表面(明显的)相似性。换句话说,明显的相似性不是来自语义注释,而是来自图像本身。
图 1:激励研究者提出无监督方法的有监督学习效果图。以猎豹图片为例,网络输出的几个最高响应类都是视觉相关的,例如美洲豹和猎豹。数据本身的表面相似性而非语义标签,使得某些类比其他类更加接近。该无监督方法将类监督发展到极致,并学习了辨别各个单独实例的特征表示。
图 1:激励研究者提出无监督方法的有监督学习效果图。以猎豹图片为例,网络输出的几个最高响应类都是视觉相关的,例如美洲豹和猎豹。数据本身的表面相似性而非语义标签,使得某些类比其他类更加接近。该无监督方法将类监督发展到极致,并学习了辨别各个单独实例的特征表示。

然而,我们也面临着一个重大的挑战,因为现在“类”的数量是整个训练集的大小。对于ImageNet来说,它将是120万个类,而不是1000个类(因为是以每个图像为一个实例类,所以是120万个类别,而不是1000个类别).简单地将softmax扩展到更多的类是不可行的。研究者通过使用噪声对比估计(NCE)[9] 逼近的 softmax 分布并采用近端正则化方法 [29] 以稳定训练过程来解决这个问题。

为了评估无监督学习的有效性,过去的工作如 [2,31] 依赖于线性分类器(例如,支持向量机(SVM)),在测试时将学习到的特征与类别信息结合以便进行分类。但是,我们不清楚未知的测试任务为什么可以将训练学习到的特征线性分离。

作者提倡对训练和测试采用非参数方法。他们将实例级别的分类看作度量学习问题,其中实例之间的距离(相似度)是以非参数方式直接从特征中计算得到的。也就是说,每个实例的特征都存储在离散的内存块中,而不是网络中的权重。

在测试阶段,使用基于学习度量的 k-近邻(kNN)进行分类。因为模型的学习和评估都与图像间的相同的度量空间有关,所以其训练和测试是一致的。研究者总结了与 SVM 和 kNN 的准确率对比实验结果。

实验结果表明,在无监督领域,该方法在图像分类方面远超过最先进的方法。具体地,在 ImageNet 1K [1] 上的 top-1 准确率为 46.5%,Places 205 [41] 为 41.6%。若有更多的训练数据和更好的网络架构,该算法会持续提高测试结果。

通过微调学习到的特征,可进一步获得半监督学习和物体检测任务的具竞争性的结果。最后,该非参数化模型非常紧凑:每张图片有 128 个特征,存储一百万张图像仅需 600MB,从而在运行时实现快速最近邻检索。
在这里插入图片描述
图 2:本文提出的无监督特征学习方法的工作流图。研究者使用骨干 CNN 将每个图像编码为 128 维空间并进行 L2 归一化的特征向量。最佳特征嵌入过程是通过实例级判别器学习的,该判别器尝试将训练样本的特征最大程度地散布在 128 维的单位球上。

近期工作

近期关于无监督学习的工作主要可以分为两类:生成式模型和自监督模型。
Generative Modes
生成式模型的出发点在于尽可能重构数据的分布,典型的方法有受限玻尔兹曼机(RBM),自编码器(Autoencoders)。生成式模型得到的隐空间特征能够有效帮助分类,近期的生成式模型有生成对抗网络(GAN)和变分自编码器(VAE)
Self-supervised Learning
自监督模型利用内部数据结构,通过预测图片来训练模型。具体地,模型需要预测给定实例缺失的部分。为了学习图像的表达,预测任务可以分为上下文预测,目标计数,填补图像缺失部分,将灰度图像恢复成彩色图像,甚至是完成拼图游戏。对于视频,自监督模型包括:跟踪时间连续性,预测未来帧图像,或者保持自我运动的轨迹。
Metric Learning
每个特征表示F在实例x和y之间引入一个度量:dF(x, y) = ||F(x) -F(y)||,因此,特征学习也可以看作是度量学习的一种特定形式。已有大量关于度量学习的研究。度量学习的成功应用通常会带来有竞争力的表现,例如在人脸识别[35]和person Re-Id[46]上。在这些任务中,测试时的类别与训练时的类别是分离的。一旦一个网络被训练,只能从它的特征表征来推断,而不能从随后的线性分类器来推断。度量学习已被证明对few-shot是有效的[38,41,37]。人脸识别度量学习的一个重要技术点是归一化[35,22,43],我们在这项工作中也利用了这一点。注意,这里提到的所有方法都需要以某种方式进行监督。我们的工作是完全不同的:它以一种无监督的方式学习特性,从而获得度量.
Exemplar CNN
Exemplar CNN[5]与我们的工作类似。基本的区别在于,它在训练和测试中都采用了参数的范式,而我们的方法本质上是非参数的。我们在第4.1节的实验中研究了这种差别。举例来说,Exemplar CNN在是在大规模的数据集上计算的,比如ImageNet。

3. Approach

我们的目标是无需监督信息学习一个特征映射:v = fθ(x), fθ是以θ为参数的卷积神经网络,将图片x映射成特征v。映射同样包含了图像空间的度量dθ(x,y)=∣∣fθ(x)−fθ(y)∣∣对于实例x和y.一个好的映射应该能够将视觉相似的图片投影得相近。我们的无监督特征学习是实例级别的判别式学习,我们将每张图片都当作一个独特的类别对待并训练一个分类器将这些类别分开.
3.1. Non-Parametric Softmax Classifie
Parametric Classifier
我们使用softmax标准制定实例级分类目标,假如我们有n个图像 x 1 x_{1} x1, x 2 x_{2} x2…, x n x_{n} xn和他们的特征 v 1 v_{1} v1, v 2 v_{2} v2 v n v_{n} vn,对应关系是 v i = f θ ( x i ) v_{i}=f_{\theta}(x_{i}) vi=fθ(xi),在传统的softmax公式中,图像x对应特征 v = f θ ( x ) v=f_{\theta}(x) v=fθ(x).它被当作第ii张图片的概率是
P ( i ∣ v ) = exp ⁡ ( w i T v ) ∑ j = 1 n exp ⁡ ( w j T v ) P(i | v)=\frac{\exp \left(w_{i}^{T} v\right)}{\sum_{j=1}^{n} \exp\left(w_{j}^{T} v\right)} P(iv)=j=1nexp(wjTv)exp(wiTv)

wj是j类的权重向量, w j T v \mathbf{w}_{j}^{T} \mathbf{v} wjTv衡量着v与第j类的匹配程度.
假设特征维度是128,图片数目为120万,这一层的参数数目超过15亿。
Non-Parametric Classifier
式(1)中的参数softmax公式的问题是,权向量w作为一个类原型,妨碍了实例之间的比较。
研究者们提出了非参数的公式:用 v j T v \mathbf{v}_{j}^{T} \mathbf{v} vjTv取代 w j T v \mathbf{w}_{j}^{T} \mathbf{v} wjTv,并且通过L2正则化使得 ∥ v ∥ = 1 \|\mathbf{v}\|=1 v=1,然后概率公式 P ( i ∣ v ) P(i | \mathbf{v}) P(iv)为:
P ( i ∣ v ) = exp ⁡ ( v i T v / τ ) ∑ j = 1 n exp ⁡ ( v j T v / τ ) P(i | \mathbf{v})=\frac{\exp \left(\mathbf{v}_{i}^{T} \mathbf{v} / \tau\right)}{\sum_{j=1}^{n} \exp \left(\mathbf{v}_{j}^{T} \mathbf{v} / \tau\right)} P(iv)=j=1nexp(vjTv/τ)

  • 3
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
封闭回路的无监督学习结构化表示 封闭回路的无监督学习结构化表示是一种机器学习方法,旨在通过建立闭环反馈以自动地学习数据之间的结构化表示。在无监督学习中,我们通常没有标签的辅助信息,因此要求模型能够从数据中自动发现隐藏的结构和模式。 封闭回路的无监督学习方法的关键思想是通过对模型输出和输入进行比较来进行训练。在这个闭环中,模型的输出被重新注入到模型的输入中,从而形成了一个持续的迭代过程。模型通过调整自身的参数来最小化输入和输出之间的差异,以此来改善所学到的表示。 使用封闭回路进行无监督学习的一个例子是自编码器。自编码器是一种神经网络模型,它的输入和输出都是相同的。模型的目标是通过学习如何将输入编码为一个低维的表示,并且能够从这个低维表示中重构出输入。在训练过程中,自编码器通过最小化输入和重构输出之间的差异来调整自身的参数。 封闭回路的无监督学习方法有许多优点。首先,由于无需标签,这种方法可以适用于大量未标记的数据。其次,学习到的结构化表示可以用于许多任务,如数据压缩、降噪、特征提取等。此外,通过引入封闭回路,模型可以在训练过程中不断自我纠正,从而改善表示的质量。 总之,封闭回路的无监督学习方法通过建立闭环反馈来自动地学习数据之间的结构化表示。该方法可以应用于无标签数据,并且通过迭代过程来不断改善所学到的表示。这种方法在很多任务中都具有广泛的应用前景。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值