CONTRASTIVE REPRESENTATION DISTILLATION

最新推荐文章于 2024-02-21 20:21:55 发布

MTandHJ

最新推荐文章于 2024-02-21 20:21:55 发布

阅读量2.7k

点赞数 2

分类专栏： neural networks

本文链接：https://blog.csdn.net/MTandHJ/article/details/109003256

版权

neural networks 专栏收录该内容

143 篇文章 6 订阅

订阅专栏

文章目录

Tian Y., Krishnan D., Isola P. CONTRASTIVE REPRESENTATION DISTILLATION. arXiv preprint arXiv 1910.10699, 2019.

概

感觉其和此的相似度有50%, 不过这篇写得早一点, 所以后者是借鉴了这篇文章? 这篇文章总的来说就是将distillation 和 contrastive learning 结合起来.

主要内容

在这里插入图片描述

思想便是, 希望 $f^S(x_i)$ 靠近 $f^T(x_i)$ , 而 $f^S(x_j)$ 远离 $f^T(x_i)$ . 定义
$S:=f^S(x), \quad T:= f^T(x).$
假设源于同一样本的联合分布 $P (S, T ∣ C = 1)$ 为 $P_1(S,T)$ , 而源于不同样本的联合分布 $P (S, T ∣ C = 0)$ 为 $P_0(S)P_0(T)$ . 则我们很自然地希望最大化互信息:
$\mathbb{E}_{P_1(S,T)} \log \frac{P_1(S,T)}{P_0(S)P_0(T)}.$

接下来就是负采样和对比学习的东西了, 假设数据集是如此构造的: 一个特征 $T$ , 以及N+1个特征 $\{S,S_1,\ldots, S_N\}$ , 其中 $S, T$ 构成正样本对(即来源于同一个样本, 其余 $S_i,T$ 构成负样本对. 则我们有先验
$P(C=1)=\frac{1}{N+1}, P(C=0)=\frac{N}{N+1}.$
于是便有
$P(C=1|T,S)=\frac{P_1(T,S)}{P_1(T,S)+NP_0(T)P_0(S)},$
又
$\begin{array}{ll} \log P(C=1|T,S) &= -\log (1+N\frac{P_0(T)P_0(S)}{P_1(T,S)}) \\ & \le -\log N + \log \frac{P_1(T,S)}{P_0(T)P_0(S)}. \end{array}$
两边关于 $P_1(T,S)$ 求期望可知
$\ge \log N + \mathbb{E}_{P_1(T, S)} \log P(C=1|T,S).$

但是 $P (C = 1 ∣ T, S)$ 未知, 故作者采用 $h (T, S)$ 去拟合, 通过极大似然估计
$\mathcal{L}_{critic}(h)= \mathbb{E}_{P_1(T,S)} \log h(T,S) + N \mathbb{E}_{P_0(T,S)}\log (1-h(T,S)).$
只要 $h$ 的拟合能力够强, 最后便能很好的逼近 $P (C = 1 ∣ T, S)$ . 设其最优解为 $h^*$ . 但是需要注意的一点是, $h^*$ 跟 $T, S$ 有关系, 则其隐式地和 $f^S$ 有关系, 而 $f^S$ 又需要
$\max_{f^S} \mathbb{E}_{P_1} \log h^*(T,S),$
所以这就成了一个交替迭代的过程. 作者就另辟蹊径, 既然
$\begin{array}{ll} I(T,S) &\ge \log N + \mathbb{E}_{P_1(T,S)} \log h^*(T,S) + N \mathbb{E}_{P_0(T,S)}\log (1-h^*(T,S)) \\ & \ge \log N + \mathbb{E}_{P_1(T,S)} \log h(T,S) + N \mathbb{E}_{P_0(T,S)}\log (1-h(T,S)). \end{array}$

便不妨共同优化 $f^S, h$ .

注: 第二个不等式成立, 因为 $\in [0, 1]$ , 故第二项非正.

文中取的 $h$ 为
$h(T,S)=\frac{e^{g^T(T)'g^S(S)/\tau}}{e^{g^T(T)'g^S(S)/\tau} + \frac{N}{M}},$
其中, $g$ 为一线性变换, $\tau$ 为temperature, $M$ 为整个数据集的大小.

超参数的选择

CIFAR100:
N: 16384
$\tau$ : 0.1

代码

原文代码

MTandHJ

关注

2
点赞
踩
8

收藏

觉得还不错? 一键收藏
4
评论
CONTRASTIVE REPRESENTATION DISTILLATION

文章目录概主要内容超参数的选择代码Tian Y., Krishnan D., Isola P. CONTRASTIVE REPRESENTATION DISTILLATION. arXiv preprint arXiv 1910.10699, 2019.概感觉其和此的相似度有50%, 不过这篇写得早一点, 所以后者是借鉴了这篇文章? 这篇文章总的来说就是将distillation 和 contrastive learning 结合起来.主要内容思想便是, 希望fS(xi)f^S(x_i)fS
复制链接

扫一扫