[解读] Unsupervised Feature Learning via Non-Parametric Instance Discrimination

Unsupervised Feature Learning via Non-Parametric Instance Discrimination

  • 链接: https://arxiv.org/abs/1805.01978v1
  • 解释链接: https://blog.csdn.net/qq_16936725/article/details/51147767

本文提出了一种视觉特征的无监督学习算法, 这种方法能够学习到实例间的相似性和差异性. 首先利用卷积网络进行特征学习, 再通过非参数的 Softmax 变换, 将一个图片转换成一个特征表示.

相关的工作

在特征之间可以定义一种度量, 特征学习可以视为某种度量学习, 这方面有许多的研究 [15, 33], 本文将利用度量学习中的正则化方法 [35, 22, 43]. Exemplar CNN [5] 与本文的工作有相似之处, 但最重要的区别是这个方法需要一种参数范式, 而本文的方法是非参数的.

方法

在这里插入图片描述

按照传统的卷积网络分类器设计思路, 要进行实例级别的分类任务, 对每一个样本都需要一个权重向量 w \mathbf{w} w , 样本属于某一类的概率为
P ( i ∣ v ) = exp ⁡ ( w i T v ) ∑ j = 1 n exp ⁡ ( w j T v ) , P(i | \mathbf{v})=\frac{\exp \left(\mathbf{w}_{i}^{T} \mathbf{v}\right)}{\sum_{j=1}^{n} \exp \left(\mathbf{w}_{j}^{T} \mathbf{v}\right)}, P(iv)=j=1nexp(wjTv)exp(wiTv),
其中 v \mathbf{v} v 是卷积网络输出的特征表示. i i i 是预测类别(实例级). 参数 w \mathbf{w} w 是需要优化的, 然而 w \mathbf{w} w 做为分类(大类)原型, 不能做到实例间的区分. 本文将每一个样本做为一个类别, 实现实例级别的判别, 主要的改进如下:
P ( i ∣ v ) = exp ⁡ ( v i T v / τ ) ∑ j = 1 n exp ⁡ ( v j T v / τ ) , P(i | \mathbf{v})=\frac{\exp \left(\mathbf{v}_{i}^{T} \mathbf{v} / \tau\right)}{\sum_{j=1}^{n} \exp \left(\mathbf{v}_{j}^{T} \mathbf{v} / \tau\right)}, P(iv)=j=1nexp(vjTv/τ)exp(viTv/τ),
其中 τ \tau τ 是一个超参数, 用来调整类别分布的集中程度. 这是一种非参数的 softmax 分类器, 大大减少参数的数目.

然而当样本数很多时, 计算量是非常大的. 为了避免计算 P ( i ∣ v ) P(i | \mathbf{v}) P(iv), 于是本文将使用 NCE [9] 方法来进行参数估计.
h ( i , v ) : = P ( D = 1 ∣ i , v ) = P ( i ∣ v ) P ( i ∣ v ) + m P n ( i ) . h(i, \mathbf{v}):=P(D=1 | i, \mathbf{v})=\frac{P(i | \mathbf{v})}{P(i | \mathbf{v})+m P_{n}(i)}. h(i,v):=P(D=1i,v)=P(iv)+mPn(i)P(iv).
上式表达的是样本 i i i 来自于真实样本 ( D = 1 D=1 D=1) 的概率, D = 0 D=0 D=0 则意味着来自于噪声样本. 优化目标为
J N C E ( θ ) = − E P d [ log ⁡ h ( i , v ) ] − m ⋅ E P n [ log ⁡ ( 1 − h ( i , v ′ ) ) ] . \begin{aligned} J_{N C E}(\boldsymbol{\theta}) &=-E_{P_{d}}[\log h(i, \mathbf{v})] \\ &-m \cdot E_{P_{n}}\left[\log \left(1-h\left(i, \mathbf{v}^{\prime}\right)\right)\right].\end{aligned} JNCE(θ)=EPd[logh(i,v)]mEPn[log(1h(i,v))].
最小化优化目标即可得到卷积网络的参数 θ \theta θ.

在正向计算时, 分母项 ∑ j = 1 n exp ⁡ ( v j T v / τ ) \sum_{j=1}^{n} \exp \left(\mathbf{v}_{j}^{T} \mathbf{v} / \tau\right) j=1nexp(vjTv/τ) 的计算是无法避免的, 直接计算的计算量同样很大, 于是本文使用蒙特卡罗方法来估计这一项:
Z ≃ Z i ≃ n E j [ exp ⁡ ( v j T f i / τ ) ] = n m ∑ k = 1 m exp ⁡ ( v j k T f i / τ ) . Z \simeq Z_{i} \simeq n E_{j}\left[\exp \left(\mathbf{v}_{j}^{T} \mathbf{f}_{i} / \tau\right)\right]=\frac{n}{m} \sum_{k=1}^{m} \exp \left(\mathbf{v}_{j k}^{T} \mathbf{f}_{i} / \tau\right). ZZinEj[exp(vjTfi/τ)]=mnk=1mexp(vjkTfi/τ).
由于每次训练时, 每个样本相当于一个类别, 训练过程会非常不稳定, 产生很大的波动, 为了解决这个问题, 在损失函数上增加一项针对 v \mathbf{v} v 的惩罚, 来稳定训练过程:
− log ⁡ h ( i , v i ( t − 1 ) ) + λ ∥ v i ( t ) − v i ( t − 1 ) ∥ 2 2 -\log h\left(i, \mathbf{v}_{i}^{(t-1)}\right)+\lambda\left\|\mathbf{v}_{i}^{(t)}-\mathbf{v}_{i}^{(t-1)}\right\|_{2}^{2} logh(i,vi(t1))+λvi(t)vi(t1)22

实验

实验进行了四组, 第一组实验在 CIFAR-10 数据集上进行非参数和参数 softmax 的对比. 结果显示本文提出的模型远远超过参数化 softmax 算法.

第二组在 ImageNet 上与其它无监督学习算法进行对比, 有 self-supervised learning
[2, 47, 27, 48], adversarial learning [4], and Exemplar
CNN [3]. split-brain autoencoder [48] 则做为基准.

为了研究训练好的网络是否能有益于其他任务和迁移学习, 进行半监督学习的对比测试: (1)
Scratch, i.e. fully supervised training on the small labeled
subsets, (2) Split-brain [48] for pre-training, and (3) Colorization
[19] for pre-training. 结果显示本文方法远远优于对比方法.

为了进一步评估泛化性, 将模型迁移, 进行目标检测的测试. 在数据集 PASCAL VOC 2007 [6] 上测试, 对比方法为 Fast R-CNN [7] with AlexNet and
VGG16 architectures, and Faster R-CNN [32] with ResNet-50. 结果表明在Resnet-50测试中, 大幅领先对比方法.

可能的进一步改进

上面的改进是比较朴素的, 优化方法是最大化对数似然. 我觉得可能会引发一种不好的情况, 特征 v \mathbf{v} v 在球面中的分布可能会趋于均匀分布, 也就是说信息熵最小, 这种距离的远近是否就能准确地表明实例间的差异大小? 有这个担心是因为最终的分类依赖于 k k k 近邻算法. 改进的方法一方面可以从特征表示上进行, 另一方面构造一种更恰当的距离度量.

参考

  • [2] C. Doersch, A. Gupta, and A. A. Efros. Unsupervised visual representation learning by context prediction. In ICCV, 1, 2, 5, 6, 8
  • [3] C. Doersch and A. Zisserman. Multi-task self-supervised visual learning. arXiv preprint arXiv:1708.07860, 2017. 2, 5, 6
  • [4] J. Donahue, P. Kr¨ahenb¨uhl, and T. Darrell. Adversarial feature learning. arXiv preprint arXiv:1605.09782, 2016. 2, 5, 6, 8
  • [5] A. Dosovitskiy, J. T. Springenberg, M. Riedmiller, and T. Brox. Discriminative unsupervised feature learning with convolutional neural networks. In NIPS, 2014. 1, 2, 5
  • [6] M. Everingham, L. Van Gool, C. K. Williams, J. Winn, and A. Zisserman. The pascal visual object classes (voc) challenge. IJCV, 2010. 8
  • [7] R. Girshick. Fast r-cnn. In ICCV, 2015. 8
  • [9] M. Gutmann and A. Hyvärinen. Noise-contrastive estimation: A new estimation principle for unnormalized statistical models. In AISTATS, 2010. 2, 4
  • [15] M. Koestinger, M. Hirzer, P. Wohlhart, P. M. Roth, and H. Bischof. Large scale metric learning from equivalence constraints. In CVPR. IEEE, 2012. 2
  • [19] G. Larsson, M. Maire, and G. Shakhnarovich. Colorization as a proxy task for visual understanding. CVPR, 2017. 8
  • [22] W. Liu, Y. Wen, Z. Yu, M. Li, B. Raj, and L. Song. Sphereface: Deep hypersphere embedding for face recognition. In CVPR, 2017. 2
  • [27] M. Noroozi and P. Favaro. Unsupervised learning of visual representations by solving jigsaw puzzles. In ECCV. Springer, 2016. 2, 5, 6
  • [32] S. Ren, K. He, R. Girshick, and J. Sun. Faster r-cnn: Towards real-time object detection with region proposal networks. In NIPS, 2015. 8
  • [33] S. Roweis, G. Hinton, and R. Salakhutdinov. Neighbourhood component analysis. Adv. Neural Inf. Process. Syst.(NIPS), 17, 2004. 2
  • [35] F. Schroff, D. Kalenichenko, and J. Philbin. Facenet: A unifiedembeddingforfacerecognitionandclustering. InCVPR, 2
  • [43] F.Wang, X.Xiang, J.Cheng, andA.L.Yuille. Normface: l_2 hypersphere embedding for face verification. arXiv preprint arXiv:1704.06369, 2017. 2, 3
  • [47] R. Zhang, P. Isola, and A. A. Efros. Colorful image colorization. ECCV, 2016. 2, 5, 6, 8
  • [48] R. Zhang, P. Isola, and A. A. Efros. Split-brain autoencoders: Unsupervised learning by cross-channel prediction. CVPR, 2017, 5, 6, 8

补充

Noise-contrastive estimation: A new estimation principle for unnormalized statistical models 噪声对比估计 (NCE)

论文链接: http://proceedings.mlr.press/v9/gutmann10a/gutmann10a.pdf

参考资料:

  • https://spaces.ac.cn/archives/5617/comment-page-1
  • https://blog.csdn.net/littlely_ll/article/details/79252064

本人才疏学浅, 如有遗漏或错误之处, 请多多指教!

封闭回路的无监督学习结构化表示 封闭回路的无监督学习结构化表示是一种机器学习方法,旨在通过建立闭环反馈以自动地学习数据之间的结构化表示。在无监督学习中,我们通常没有标签的辅助信息,因此要求模型能够从数据中自动发现隐藏的结构和模式。 封闭回路的无监督学习方法的关键思想是通过对模型输出和输入进行比较来进行训练。在这个闭环中,模型的输出被重新注入到模型的输入中,从而形成了一个持续的迭代过程。模型通过调整自身的参数来最小化输入和输出之间的差异,以此来改善所学到的表示。 使用封闭回路进行无监督学习的一个例子是自编码器。自编码器是一种神经网络模型,它的输入和输出都是相同的。模型的目标是通过学习如何将输入编码为一个低维的表示,并且能够从这个低维表示中重构出输入。在训练过程中,自编码器通过最小化输入和重构输出之间的差异来调整自身的参数。 封闭回路的无监督学习方法有许多优点。首先,由于无需标签,这种方法可以适用于大量未标记的数据。其次,学习到的结构化表示可以用于许多任务,如数据压缩、降噪、特征提取等。此外,通过引入封闭回路,模型可以在训练过程中不断自我纠正,从而改善表示的质量。 总之,封闭回路的无监督学习方法通过建立闭环反馈来自动地学习数据之间的结构化表示。该方法可以应用于无标签数据,并且通过迭代过程来不断改善所学到的表示。这种方法在很多任务中都具有广泛的应用前景。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值