Poly-View Contrastive Learning

Poly-View Contrastive Learning
多视角对比学习

Amitis Shidani  志谷阿米蒂斯
Department of Statistics University of Oxford, UK shidani@stats.ox.ac.uk &Devon Hjelm, Jason Ramapuram, Russ Webb,
英国牛津大学统计系shidani@stats.ox.ac.uk &德文郡Hjelm,Jason Ramapuram,Russ Webb,
Eeshan Gunesh Dhekane, and Dan Busbridge
Eeshan Gunesh Dhekane和Dan Busbridge

Apple dbusbridge@apple.com
苹果dbusbridge@apple.comWork done during an internship at Apple. For a detailed breakdown of author contributions see Appendix I.
在Apple实习期间完成的工作。有关作者贡献的详细分类,请参见附录。
Abstract 摘要                    https://arxiv.org/html/2403.05490v1

Contrastive learning typically matches pairs of related views among a number of unrelated negative views. Views can be generated (e.g. by augmentations) or be observed. We investigate matching when there are more than two related views which we call poly-view tasks, and derive new representation learning objectives using information maximization and sufficient statistics. We show that with unlimited computation, one should maximize the number of related views, and with a fixed compute budget, it is beneficial to decrease the number of unique samples whilst increasing the number of views of those samples. In particular, poly-view contrastive models trained for 128 epochs with batch size 256 outperform SimCLR trained for 1024 epochs at batch size 4096 on ImageNet1k, challenging the belief that contrastive models require large batch sizes and many training epochs.
对比学习通常在许多不相关的负面观点中匹配成对的相关观点。可以生成视图(例如,通过增强)或观察视图。我们调查匹配时,有两个以上的相关意见,我们称之为多视图任务,并获得新的表示学习目标,使用信息最大化和充分的统计。我们表明,无限的计算,应该最大限度地增加相关视图的数量,并与一个固定的计算预算,这是有益的,以减少独特的样本的数量,同时增加这些样本的视图的数量。特别是,在ImageNet 1k上,批量大小为256的128个epoch训练的多视图对比模型优于批量大小为4096的1024个epoch训练的Simplified,挑战了对比模型需要大批量和许多训练epoch的信念。

1Introduction 1介绍

Self-Supervised Learning (SSL) trains models to solve tasks designed take advantage of the structure and relationships within unlabeled data (Bengio et al., 2013; Balestriero et al., 2023; Logeswaran & Lee, 2018; Baevski et al., 2020; Grill et al., 2020). Contrastive learning is one form of SSL that learns representations by maximizing the similarity between conditionally sampled views of a single data instance (positives) and minimizing the similarity between independently sampled views of other data instances (negatives) (Qi & Su, 2017; van den Oord et al., 2018; Bachman et al., 2019; Hénaff et al., 2019; He et al., 2019; Tian et al., 2020ab; Chen et al., 2020a).
自我监督学习(SSL)训练模型以解决利用未标记数据内的结构和关系设计的任务(Bengio等人,2013; Balestriero等人,2023; Logeswaran & Lee,2018; Baevski等人,2020; Grill等人,2020年)。对比学习是SSL的一种形式,它通过最大化单个数据实例的条件采样视图之间的相似性(阳性)和最小化其他数据实例的独立采样视图之间的相似性(阴性)来学习表示(Qi & Su,2017;货车den Oord等人,2018; Bachman等人,2019; Hénaff等人,2019; He等人,2019; Tian等人,2020 a; B; Chen等人,2020年a)。

One principle behind contrastive learning is Mutual Information (MI) maximization (van den Oord et al., 2018; Hjelm et al., 2019). Many works have elucidated the relationship between contrastive learning and information theory (Poole et al., 2019; Tschannen et al., 2020; Lee et al., 2023; Gálvez et al., 2023). However, MI maximization is only part of the story (Tschannen et al., 2020); successful contrastive algorithms rely on negative sampling (Wang & Isola, 2020; Robinson et al., 2021; Song et al., 2016; Sohn, 2016) and data augmentation (Bachman et al., 2019; Tian et al., 2020b; Chen et al., 2020a; Fort et al., 2021; Balestriero et al., 2022ba) to achieve strong performance.
对比学习背后的一个原理是互信息(MI)最大化(货车den Oord等人,2018; Hjelm等人,2019年)。许多工作已经阐明了对比学习和信息理论之间的关系(Poole et al.,2019; Tschannen等人,2020; Lee等人,2023; Gálvez等人,2023年)。然而,MI最大化只是故事的一部分(Tschannen等人,2020);成功的对比算法依赖于负采样(Wang & Isola,2020;罗宾逊等人,2021; Song等人,2016; Sohn,2016)和数据增强(Bachman等人,2019; Tian等人,2020 b; Chen等人,2020 a; Fort等人,2021; Balestriero等人,2022年B; A)实现强劲的业绩。

While it is possible to design tasks that draw any number of views, contrastive works typically solve pairwise tasks, i.e. they maximize the similarity of exactly two views, or positive pairs (Balestriero et al., 2023; Tian et al., 2020a). The effect of more views, or increased view multiplicity (Bachman et al., 2019), was investigated in SSL (van den Oord et al., 2018; Hjelm et al., 2019; Tian et al., 2020a; Caron et al., 2020). However, these works optimize a linear combination of pairwise tasks; increasing view multiplicity mainly improves the gradient signal to noise ratio of an equivalent lower view multiplicity task, as was observed in supervised learning (Hoffer et al., 2019; Fort et al., 2021).
虽然可以设计绘制任何数量的视图的任务,但是对比工作通常解决成对任务,即它们最大化恰好两个视图或正对的相似性(Balestriero等人,2023; Tian等人,2020年a)。更多视图或增加视图多样性的效果(Bachman等人,2019),在SSL中进行了研究(货车den Oord等人,2018; Hjelm等人,2019; Tian等人,2020 a; Caron等人,2020年)。然而,这些工作优化了成对任务的线性组合;增加视图多重性主要改善了等效的较低视图多重性任务的梯度信噪比,如在监督学习中观察到的(Hoffer等人,2019; Fort等人,2021年)。

In this work, we investigate increasing view multiplicity in contrastive learning and the design of SSL tasks that use many views. We call these tasks poly-view to distinguish them from multi-view, as multi usually means exactly two (Tian et al., 2020a; Balestriero et al., 2023). In addition to improved signal to noise (Hoffer et al., 2019; Fort et al., 2021), poly-view tasks allow a model to access many related views at once, increasing the total information about the problem. We show theoretically and empirically that this has a positive impact on learning. We make the following contributions:
在这项工作中,我们调查增加视图的多样性对比学习和SSL任务的设计,使用许多意见。我们称这些任务为多视图,以区别于多视图,因为多视图通常意味着正好两个(Tian等人,2020 a; Balestriero等人,2023年)。除了改善的信噪比(Hoffer等人,2019; Fort等人,多视图任务允许模型一次访问许多相关视图,从而增加了关于问题的总信息。我们从理论和经验上表明,这对学习有积极的影响。我们做出以下贡献:

  1. 1. 

    We generalize the information-theoretic foundation of existing contrastive tasks to poly-view (Section 2.3), resulting in a new family of representation learning algorithms.


    1.我们将现有对比任务的信息理论基础推广到多视图(第2.3节),从而产生了一个新的表示学习算法家族。
  2. 2. 

    We use the framework of sufficient statistics to provide an additional perspective on contrastive representation learning in the presence of multiple views, and show that in the case of two views, this reduces to the well-known SimCLR loss, providing a new interpretation of contrastive learning (Section 2.4) and another new family of representation learning objectives.


    2.我们使用足够的统计框架提供了一个额外的视角,在存在多个视图的情况下,对比表征学习,并表明,在两个视图的情况下,这减少了众所周知的Simplitude损失,提供了一个新的解释对比学习(第2.4节)和另一个新的家庭的表征学习目标。
  3. 3. 

    Finally, we demonstrate poly-view contrastive learning is useful for image representation learning. We show that higher view multiplicity enables a new compute Pareto front for contrastive learning, where it is beneficial to reduce the batch size and increase multiplicity (Section 3.2). This front shows that poly-view contrastive models trained for 128 epochs with batch size 256 outperforms SimCLR trained for 1024 epochs at batch size 4096 on ImageNet1k.


    3.最后,我们证明了多视图对比学习对图像表示学习是有用的。我们发现,更高的视图多重性为对比学习提供了一个新的计算帕累托前沿,它有利于减少批量大小和增加多重性(第3.2节)。这张图显示,在ImageNet1k上,批量大小为256的128个epoch训练的多视图对比模型优于批量大小为4096的1024个epoch训练的Simplified。

2View multiplicity in contrastive learning
2对比学习中的观点多样性

We seek to understand the role of view multiplicity in contrastive learning (Definition 2.1).
我们试图理解在对比学习(定义2.1)的观点多样性的作用。

Definition 2.1 (View Multiplicity)
定义2.1(视图多重性).

The view multiplicity 𝑀 is the number of views per sample. In batched sampling, drawing 𝐾 samples results in 𝑉=𝑀×𝐾 views per batch. (Hoffer et al., 2019).
视图多重性 𝑀 是每个样本的视图数。在批量采样中,绘制 𝐾 个样本会导致每个批次的 𝑉=𝑀×𝐾 个视图。(Hoffer等人,2019年)。

Multiple data views may occur naturally as in CLIP (Radford et al., 2021) or, as is our primary interest, be samples from an augmentation policy as is common in SSL.
多个数据视图可以如CLIP(拉德福等人,2021),或者,作为我们的主要兴趣,从SSL中常见的增强策略中提取样本。

ptMulti-view𝑀=2 SimCLR/InfoNCE ℐ⁢(𝐱;𝐲)≥ℒInfoNCE𝑀≥2 Multi-Crop InfoNCE ℓ⁢(𝐱,𝐲) ℐ⁢(𝐱;𝐲)≥1𝑀⁢∑𝛼=1𝑀ℓ𝛼⁢(𝐱,𝐲)ptPoly-view𝑀≥2 Sufficient Statistics  Section 2.4 ℐ⁢(𝐱;𝐘)≥ℒSuffStats𝑀≥2 Generalized MI  Section 2.3 ℐ⁢(𝐱;𝐘)≥ℒGenNWJpt𝑀=2pt𝑀=2pt𝑀=2Lower bounds

(a)View multiplicity in contrastive learning.
(a)对比学习中的观点多样性。

Refer to caption

(b)View multiplicity generative process.
(B)观点多样性的生成过程。

Figure 1:(a) The role of multiplicity in contrastive learning. ℐ⁢(𝐱;𝐲) present the MI between two random variables 𝐱 and 𝐲, while ℐ⁢(𝐱;𝐘) is the MI between 𝐱 and the set of RV s 𝐘. ℒMethod denotes the contrastive lower-bound achieved by each method, ignoring the constants. In the multi-crop box, ℓ𝛼⁢(𝐱,𝐲) is the contrastive lower-bound produced by the 𝛼-th crop/view. (b) The multiple view sample generation with generative factor 𝐜, where the main sample is generated through the generative process 𝜌, and views are generated through different view-generation processes 𝜂𝛼 for 𝛼∈[𝑀], e.g. augmentations. The goal is to find the map ℎ⋆ such that the reconstructed generative factor 𝐜^ recovers 𝐜, hence the identity map.
图1:(a)多样性在对比学习中的作用。 ℐ⁢(𝐱;𝐲) 表示两个随机变量 𝐱 和 𝐲 之间的MI,而 ℐ⁢(𝐱;𝐘) 是 𝐱 和RV集合 𝐘 之间的MI。 ℒMethod 表示每种方法实现的对比下限,忽略常量。在多裁剪框中, ℓ𝛼⁢(𝐱,𝐲) 是由第 𝛼 次裁剪/视图产生的对比下限。(b)具有生成因子 𝐜 的多视图样本生成,其中通过生成处理 𝜌 生成主样本,并且通过用于 𝛼∈[𝑀] 的不同视图生成处理 𝜂𝛼 (例如,增强)生成视图。目标是找到映射 ℎ⋆ ,使得重构的生成因子 𝐜^ 恢复 𝐜 ,因此恢复恒等映射。

Our goal is to develop tasks that can use multiplicity 𝑀. We start by presenting the generative process underlying multiplicity (Section 2.1). We then consider optimizing many pairwise tasks (Section 2.2), known as Multi-Crop, and show that Multi-Crop reduces the variance of the corresponding paired objective but cannot improve bounds on quantities like MI. Next, we revisit the information theoretic origin of InfoNCE, and derive new objectives that solve tasks across all views and do not decompose into pairwise tasks (Section 2.3). Finally, as the framework of sufficient statistics is natural at high multiplicity, we use it to derive new objectives which solve tasks across all views (Section 2.4). All of these objectives are related, as is shown in Figure 0(a). Before proceeding, we introduce our notation.
我们的目标是开发可以使用多重性 𝑀 的任务。我们首先介绍多重性背后的生成过程(2.1节)。然后,我们考虑优化许多成对任务(第2.2节),称为多作物,并表明多作物减少了相应的配对目标的方差,但不能提高像MI这样的量的界限。接下来,我们重新审视InfoNCE的信息论起源,并推导出新的目标,这些目标可以解决所有视图中的任务,而不会分解为成对的任务(第2.3节)。最后,由于充分统计的框架在高度多重性下是自然的,我们使用它来导出新的目标,这些目标可以解决所有视图中的任务(第2.4节)。所有这些目标都是相互关联的,如图0(a)所示。在继续之前,我们介绍我们的符号。

Notation 符号

We denote vector and set of random variables (RVs) as 𝐱 and 𝐗, with corresponding densities 𝑝𝐱 and 𝑝𝐗, and realizations 𝒙 and 𝑿. Vector realizations 𝒙 live in spaces denoted by 𝒳. The conditional distribution of 𝐲 given a realization 𝒙 is denoted 𝑝𝐲|𝐱=𝒙. The expectation of a scalar function 𝑓:𝒳↦ℝ is 𝔼⁢[𝑓⁢(𝐱)]=𝔼𝒙∼𝑝𝐱⁢[𝑓⁢(𝒙)]. For 𝑎≤𝑐≤𝑏, 𝐗𝑎:𝑏={𝐱𝑎,𝐱𝑎+1,…,𝐱𝑏} represents a set of RV s, and 𝐗𝑎:𝑏(≠𝑐)=𝐗𝑎:𝑏∖{𝐱𝑐}. The density of 𝐗𝑎:𝑏 is the joint of its constituent RVs. MI between 𝐱 and 𝐲 is denoted ℐ⁢(𝐱;𝐲) and is defined over RV sets as ℐ⁢(𝐗;𝐘). We denote the Shannon and differential entropy of 𝐱 as H⁢(𝐱), and the Kullback-Leibler Divergence (KLD) between densities 𝑝 and 𝑞 by 𝒟KL⁢(𝑝∥𝑞). Finally, we write the integer set {1,…,𝐾} as [𝐾], and use Latin and Greek alphabet to index samples and views respectively.
我们将向量和随机变量(RV)的集合表示为 𝐱 和 𝐗 ,具有对应的密度 𝑝𝐱 和 𝑝𝐗 以及实现 𝒙 和 𝑿 。向量实现 𝒙 存在于由 𝒳 表示的空间中。给定实现 𝒙 的 𝐲 的条件分布表示为 𝑝𝐲|𝐱=𝒙 。标量函数 𝑓:𝒳↦ℝ 的期望值是 𝔼⁢[𝑓⁢(𝐱)]=𝔼𝒙∼𝑝𝐱⁢[𝑓⁢(𝒙)] 。对于 𝑎≤𝑐≤𝑏 , 𝐗𝑎:𝑏={𝐱𝑎,𝐱𝑎+1,…,𝐱𝑏} 表示RV的集合,并且 𝐗𝑎:𝑏(≠𝑐)=𝐗𝑎:𝑏∖{𝐱𝑐} 表示RV的集合。 𝐗𝑎:𝑏 的密度是其组成RV的联合。 𝐱 和 𝐲 之间的MI表示为 ℐ⁢(𝐱;𝐲) ,RV组定义为 ℐ⁢(𝐗;𝐘) 。我们将 𝐱 的香农熵和微分熵表示为 H⁢(𝐱) ,并将密度 𝑝 和 𝑞 之间的Kullback-Leibler散度(KLD)表示为 𝒟KL⁢(𝑝∥𝑞) 。最后,我们将整数集 {1,…,𝐾} 写成 [𝐾] ,并分别使用拉丁字母和希腊字母索引样本和视图。

2.1Generative process and InfoMax for view multiplicity
2.1视图多重性的生成过程和InfoMax

We present the causal graph underlying 𝑀 view 𝐗1:𝑀={𝐱𝛼;𝛼∈[𝑀]} generation in Figure 0(b).
我们在图0(B)中呈现了 𝑀 视图 𝐗1:𝑀={𝐱𝛼;𝛼∈[𝑀]} 生成的因果图。

The InfoMax principle (Linsker, 1988) proposes to reconstruct an unknown 𝐜 by optimizing ℎ⋆=arg⁢maxℎ∈ℋ⁡ℐ⁢(𝐱,ℎ⁢(𝐱)). To avoid trivial solutions, two-view contrastive methods (van den Oord et al., 2018; Hjelm et al., 2019; Hénaff et al., 2019; Tian et al., 2020a) perform InfoMax through a proxy task that instead maximizes a lower bound on the MI between two views ℐ⁢(ℎ⁢(𝐱1);ℎ⁢(𝐱2)). These methods rely on information about 𝐜 being in the information shared between each pair of views. A natural extension to two-view contrastive learning is to consider many views, where the total amount of information about 𝐜 is potentially larger. In Sections 2.22.3 and 2.4, we investigate different approaches to solving this generalized InfoMax, beginning with Multi-Crop (Section 2.2) before considering more general MI approaches (Section 2.3) and sufficient statistics (Section 2.4).
InfoMax原则(Linsker,1988)提出通过优化 ℎ⋆=arg⁢maxℎ∈ℋ⁡ℐ⁢(𝐱,ℎ⁢(𝐱)) 来重建未知的 𝐜 。为了避免琐碎的解决方案,双视图对比方法(货车den Oord等人,2018; Hjelm等人,2019; Hénaff等人,2019; Tian等人,2020 a)通过代理任务执行InfoMax,该代理任务反而最大化两个视图 ℐ⁢(ℎ⁢(𝐱1);ℎ⁢(𝐱2)) 之间的MI的下限。这些方法依赖于在每对视图之间共享的信息中关于 𝐜 的信息。两视图对比学习的一个自然扩展是考虑许多视图,其中关于 𝐜 的信息总量可能更大。在第2.2、2.3和2.4节中,我们研究了解决这个广义InfoMax的不同方法,从多作物(第2.2节)开始,然后考虑更一般的MI方法(第2.3节)和足够的统计量(第2.4节)。

2.2Linear combinations of pair-wise tasks
2.2成对任务的线性组合

The first approach combines objectives on pairs 𝐱𝛼, 𝐱𝛽 from the set of 𝑀 views 𝐗1:𝑀
第一种方法组合来自 𝑀 视图 𝐗1:𝑀 的集合的对 𝐱𝛼 、 𝐱𝛽 上的目标

ℒMulti-Crop⁢(𝐗1:𝑀)=1𝑀⁢(𝑀−1)⁢∑𝛼=1𝑀∑𝛽≠𝛼𝑀ℒPair⁢(𝐱𝛼,𝐱𝛽).(1)

The objective Equation 1 is the all-pairs formulation of Tian et al. (2020a), and corresponds to Multi-Crop (Caron et al., 20202021) in the presence of 𝑀 global views1. For convenience, we will refer to the objective Equation 1 as Multi-Crop. Multi-Crop has been used numerous times in SSL, here we will show how it achieves improved model performance through its connection to InfoMax.
目标方程1是Tian等人(2020 a)的所有对公式,并且对应于多作物(Caron等人,2020年; 2021年)在 𝑀 全球观点的存在。为了方便起见,我们将目标方程1称为多作物。Multi-Crop已经在SSL中使用了很多次,这里我们将展示它如何通过与InfoMax的连接来提高模型性能。

Proposition 2.1 提议2.1.

For 𝐾 independent samples and multiplicity 𝑀 denoted 𝐗1:𝐾,1:𝑀, the Multi-Crop of any ℒ𝑃𝑎𝑖𝑟 in Equation 1 has the same MI lower bound as the corresponding ℒ𝑃𝑎𝑖𝑟:
对于 𝐾 独立样本和表示为 𝐗1:𝐾,1:𝑀 的多重性 𝑀 ,等式1中的任何 ℒ𝑃𝑎𝑖𝑟 的多裁剪具有与对应的 ℒ𝑃𝑎𝑖𝑟 相同的MI下限:

ℐ⁢(𝐱1;𝐱2)≥log⁡(𝐾)−𝔼⁢[ℒMulti-Crop⁢(𝐗1:𝐾,1:𝑀)]=log⁡(𝐾)−𝔼⁢[ℒ𝑃𝑎𝑖𝑟⁢(𝐗1:𝐾,1:2)],(2)

where the expectation is over 𝐾 independent samples (see Section C.1 for the proof).
其中期望值超过 𝐾 个独立样本(证据见第C.1节)。

Proposition 2.1 shows that increasing view multiplicity in Multi-Crop does not improve the MI lower-bound compared to vanilla InfoNCE with two views. However, Multi-Crop does improve the variance of the MI estimate (Proposition 2.2).
命题2.1表明,与具有两个视图的普通InfoNCE相比,在Multi-Crop中增加视图多样性并不能提高MI下限。然而,多作物确实改善了MI估计的方差(命题2.2)。

Proposition 2.2 提议2.2.

For 𝐾 independent samples and multiplicity 𝑀, 𝑀≥3, denoted 𝐗1:𝐾,1:𝑀, the Multi-Crop of any ℒ𝑃𝑎𝑖𝑟 in Equation 1 has a lower sample variance than the corresponding ℒ𝑃𝑎𝑖𝑟:
对于 𝐾 独立样本和多重性 𝑀 、 𝑀≥3 (表示为 𝐗1:𝐾,1:𝑀 ),公式1中的任何 ℒ𝑃𝑎𝑖𝑟 的多裁剪具有比对应的 ℒ𝑃𝑎𝑖𝑟 更低的样本方差:

Var⁢[ℒMulti-Crop⁢(𝐗1:𝑀)]≤2⁢(2⁢𝑀−1)3⁢𝑀⁢(𝑀−1)⁢Var⁢[𝐿𝑃𝑎𝑖𝑟⁢(𝐱1,𝐱2)]<Var⁢[𝐿𝑃𝑎𝑖𝑟⁢(𝐱1,𝐱2)],(3)

where the variance is over 𝐾 independent samples (see Section C.2 for the proof).
其中方差超过 𝐾 个独立样本(证据见第C.2节)。

Propositions 2.2 and 2.1 show that better Multi-Crop performance follows from improved gradient signal to noise ratio as in the supervised case (Fort et al., 2021) and supports the observations of Balestriero et al. (2022b). See Appendix D for further discussion about Multi-Crop.
命题2.2和2.1示出了更好的多作物性能来自于如在监督情况下的改进的梯度信噪比(Fort等人,2021),并支持Balestriero等人(2022 b)的观察结果。有关多作物的进一步讨论,请参见附录D。

2.3Generalized information maximization as contrastive learning
2.3作为对比学习的广义信息最大化

In this subsection, we develop our first objectives that use 𝑀 views at once and do not decompose into objectives over pairs of views as in Section 2.2.
在这一小节中,我们开发了第一个目标,它一次使用 𝑀 视图,而不是像2.2节那样分解为视图对上的目标。

2.3.1Generalized mutual information between 𝑀 views
2.3.1 0#视图间的广义互信息

As InfoNCE optimizes a lower bound on of the MI between two views (van den Oord et al., 2018; Poole et al., 2019), consider the One-vs-Rest MI (Definition 2.2).
由于InfoNCE优化了两个视图之间的MI的下限(货车den Oord等人,2018; Poole等人,2019),考虑单次与静息心肌梗死(定义2.2)。

Definition 2.2 (One-vs-Rest MI)
定义2.2(单次与静息心肌梗死).

The One-vs-Rest MI for any 𝛼∈[𝑀] given a set of 𝑀≥2 Random Variables (RVs) 𝐗1:𝑀={𝐱𝛼;𝛼∈[𝑀]} is
给定一组 𝑀≥2 随机变量(RV) 𝐗1:𝑀={𝐱𝛼;𝛼∈[𝑀]} ,任何 𝛼∈[𝑀] 的1 vs Rest MI为

ℐ⁢(𝐱𝛼;𝐗1:𝑀≠𝛼)=𝒟KL⁢(𝑝𝐗1:𝑀∥𝑝𝐱𝛼⁢𝑝𝐗1:𝑀≠𝛼).(4)

One-vs-Rest MI (Definition 2.2) aligns with generalized InfoMax (Section 2.1); the larger set 𝐗1:𝑀≠𝛼 can contain more information about the generative factor 𝐜. Note that due to the data processing inequality ℐ⁢(𝐱𝛼;𝐗1:𝑀≠𝛼)≤ℐ⁢(𝐱𝛼;𝐜), estimating One-vs-Rest MI gives us a lower-bound on InfoMax.
One-vs-Rest MI(定义2.2)与广义InfoMax(第2.1节)一致;较大的集合 𝐗1:𝑀≠𝛼 可以包含关于生成因子 𝐜 的更多信息。请注意,由于数据处理不等式 ℐ⁢(𝐱𝛼;𝐗1:𝑀≠𝛼)≤ℐ⁢(𝐱𝛼;𝐜) ,估计One-vs-Rest MI为我们提供了InfoMax的下限。

Estimating One-vs-Rest MI
估计一次与静息MI

Contrastive learning estimates a lower-bound to the MI using a sample-based estimator, for example InfoNCE (van den Oord et al., 2018; Poole et al., 2019) and ℐNWJ (Hjelm et al., 2019; Nguyen et al., 2008). Theorem 2.1 generalizes the ℐNWJ lower-bound for the One-vs-Rest MI (see Section C.3 for the proof).
对比学习使用基于样本的估计器来估计MI的下限,例如InfoNCE(货车den Oord等人,2018; Poole等人,2019)和 ℐNWJ (Hjelm等人,2019; Nguyen等人,2008年)。定理2.1推广了One-vs-Rest MI的 ℐNWJ 下界(见C.3节的证明)。

Theorem 2.1 (Generalized ℐNWJ)
定理2.1(广义 ℐNWJ ).

For any 𝑀≥2, 𝛼∈[𝑀], a set of 𝑀 random variables 𝐗1:𝑀, and for any positive function 𝐹(𝑀):𝒳×𝒳𝑀−1↦ℝ+
对于任何 𝑀≥2 、 𝛼∈[𝑀] 、一组 𝑀 随机变量 𝐗1:𝑀 和任何正函数 𝐹(𝑀):𝒳×𝒳𝑀−1↦ℝ+ ,

ℐ⁢(𝐱𝛼;𝐗1:𝑀≠𝛼)≥𝔼𝑝𝐗1:𝑀⁢[𝐹(𝑀)⁢(𝒙𝛼,𝑿1:𝑀≠𝛼)]−𝔼𝑝𝐱𝛼⁢𝑝𝐗1:𝑀≠𝛼⁢[𝑒𝐹(𝑀)⁢(𝒙𝛼,𝑿1:𝑀≠𝛼)]+1=ℐGenNWJ.(5)

We can use the ℐGenNWJ lower bound (Theorem 2.1) for any function 𝐹(𝑀):𝒳×𝒳𝑀−1↦ℝ+. In order to efficiently maximize the MI, we want the bound in Equation 5 to be as tight as possible, which we can measure using the MI Gap (Definition 2.3).
我们可以对任何函数 𝐹(𝑀):𝒳×𝒳𝑀−1↦ℝ+ 使用 ℐGenNWJ 下限(定理2.1)。为了有效地最大化MI,我们希望等式5中的边界尽可能紧,我们可以使用MI间隙(定义2.3)来测量。

Definition 2.3 (MI Gap) 定义2.3(MI差距).

For any 𝑀≥2, 𝛼∈[𝑀], a set of 𝑀 random variables 𝐗1:𝑀, and map 𝑔𝛼(𝑀):𝒳×𝒳𝑀−1↦ℝ+ of the form
对于任何 𝑀≥2 , 𝛼∈[𝑀] ,一组 𝑀 随机变量 𝐗1:𝑀 ,以及以下形式的映射 𝑔𝛼(𝑀):𝒳×𝒳𝑀−1↦ℝ+

𝑔𝛼(𝑀)⁢(𝒙𝛼,𝑿1:𝑀≠𝛼)=𝑝𝒙𝛼⁢𝑝𝑿1:𝑀≠𝛼𝑝𝑿1:𝑀⁢𝑒𝐹(𝑀)⁢(𝒙𝛼,𝑿1:𝑀≠𝛼),(6)

the MI Gap 𝒢MI⁢(𝐗1:𝑀;𝑔𝛼(𝑀)) is
MI间隙 𝒢MI⁢(𝐗1:𝑀;𝑔𝛼(𝑀)) 是

𝒢MI⁢(𝐗1:𝑀;𝑔𝛼(𝑀))=ℐ⁢(𝐱𝛼;𝐗1:𝑀≠𝛼)−ℐGenNWJ=𝔼𝑝𝐗1:𝑀⁢[𝑔𝛼(𝑀)−log⁡(𝑔𝛼(𝑀))−1],(7)

where we have written 𝑔𝛼(𝑀) instead of 𝑔𝛼(𝑀)⁢(𝐱𝛼,𝐗1:𝑀≠𝛼) when the arguments are clear.
当参数明确时,我们写了 𝑔𝛼(𝑀) 而不是 𝑔𝛼(𝑀)⁢(𝐱𝛼,𝐗1:𝑀≠𝛼) 。

The map 𝑔𝛼(𝑀) in Equation 6 aggregates over 𝑀 views and is called the aggregation function.
等式6中的映射 𝑔𝛼(𝑀) 聚合了 𝑀 视图,并且被称为聚合函数。

2.3.2Properties of the aggregation function
2.3.2聚合函数的性质

The choice of 𝑔𝛼(𝑀) is important as it determines the MI Gap (Definition 2.3) at any multiplicity 𝑀. As we wish to employ 𝑔𝛼(𝑀) to obtain a lower bound on One-vs-Rest MI, it should be
选择 𝑔𝛼(𝑀) 很重要,因为它决定了任何多重性 𝑀 下的MI间隙(定义2.3)。由于我们希望使用 𝑔𝛼(𝑀) 来获得One-vs-Rest MI的下限,因此应该是

  1. 1. 

    Interchangeable: ℐ⁢(𝐱𝛼;𝐗1:𝑀≠𝛼)=ℐ⁢(𝐗1:𝑀≠𝛼;𝐱𝛼)⟹𝑔𝛼(𝑀)⁢(𝒙𝛼,𝑿1:𝑀≠𝛼)=𝑔𝛼(𝑀)⁢(𝑿1:𝑀≠𝛼,𝒙𝛼),


    1.可互换: ℐ⁢(𝐱𝛼;𝐗1:𝑀≠𝛼)=ℐ⁢(𝐗1:𝑀≠𝛼;𝐱𝛼)⟹𝑔𝛼(𝑀)⁢(𝒙𝛼,𝑿1:𝑀≠𝛼)=𝑔𝛼(𝑀)⁢(𝑿1:𝑀≠𝛼,𝒙𝛼) ,
  2. 2. 

    Reorderable: ℐ⁢(𝐱𝛼;𝐗1:𝑀≠𝛼)=ℐ⁢[𝐱𝛼;Π⁢(𝐗1:𝑀≠𝛼)]⟹𝑔𝛼(𝑀)⁢(𝒙𝛼,𝑿1:𝑀≠𝛼)=𝑔𝛼(𝑀)⁢[𝒙𝛼,Π⁢(𝑿1:𝑀≠𝛼)], where Π⁢({𝑥1,…,𝑥𝑁})={𝑥Π1,…,𝑥Π𝑁} is a permutation operator, and


    2.可重排序: ℐ⁢(𝐱𝛼;𝐗1:𝑀≠𝛼)=ℐ⁢[𝐱𝛼;Π⁢(𝐗1:𝑀≠𝛼)]⟹𝑔𝛼(𝑀)⁢(𝒙𝛼,𝑿1:𝑀≠𝛼)=𝑔𝛼(𝑀)⁢[𝒙𝛼,Π⁢(𝑿1:𝑀≠𝛼)] ,其中 Π⁢({𝑥1,…,𝑥𝑁})={𝑥Π1,…,𝑥Π𝑁} 是置换运算符,并且
  3. 3. 

    Expandable: 𝑔𝛼(𝑀) can accommodate different sized rest-sets 𝐗1:𝑀≠𝛼, i.e. can expand to any 𝑀.


    3.可扩展: 𝑔𝛼(𝑀) 可以容纳不同尺寸的休息组 𝐗1:𝑀≠𝛼 ,即可以扩展到任何 𝑀 。

We seek non-trivial lower bounds for the One-vs-Rest MI (Equation 5), and to minimize the MI Gap (Equation 7). The Data Processing Inequality (DPI) gives ℐ⁢(𝐱𝛼;𝐗1:𝑀≠𝛼)≥ℐ⁢(𝐱𝛼;𝐱𝛽) for all 𝐱𝛽∈𝐗1:𝑀≠𝛼. So, ℐ⁢(𝐱𝛼;𝐗1:𝑀≠𝛼)≥(𝑀−1)−1⁢∑𝛽ℐ⁢(𝐱𝛼;𝐱𝛽)2, provides a baseline for the lower-bound for One-vs-Rest MI, leading us to introduce the following requirement:
我们寻求One-vs-Rest MI(公式5)的非平凡下限,并最小化MI间隙(公式7)。数据处理不等式(DPI)给出了所有 𝐱𝛽∈𝐗1:𝑀≠𝛼 的 ℐ⁢(𝐱𝛼;𝐗1:𝑀≠𝛼)≥ℐ⁢(𝐱𝛼;𝐱𝛽) 。因此, ℐ⁢(𝐱𝛼;𝐗1:𝑀≠𝛼)≥(𝑀−1)−1⁢∑𝛽ℐ⁢(𝐱𝛼;𝐱𝛽) 2 为One-vs-Rest MI的下限提供了基线,导致我们引入以下要求:

  1. 4. 

    Valid: The aggregation function 𝑔𝛼(𝑀) should give a gap that is at most the gap given by the mean of pairwise comparisons with 𝑔𝛼(2)

    𝒢MI⁢(𝐗1:𝑀;𝑔𝛼(𝑀))≤1𝑀−1⁢∑𝛽≠𝛼𝒢MI⁢({𝐱𝛼,𝐱𝛽};𝑔𝛼(2)).(8)

    4.有效:聚合函数 𝑔𝛼(𝑀) 应给出给予的间隙最多为与 𝑔𝛼(2) 的成对比较的平均值给出的差距
2.3.3Poly-view infomax contrastive objectives
2.3.3多视角infomax对比物镜

We now present the first poly-view objectives, corresponding to choices of 𝐹(𝑀) and its aggregation function 𝑔𝛼(𝑀) with the properties outlined in Section 2.3.2. For any function 𝐹(2), define 𝐹(𝑀), and their aggregation functions correspondingly by Equation 6 as following:
我们现在介绍第一个多视图目标,对应于 𝐹(𝑀) 的选择及其聚合函数 𝑔𝛼(𝑀) ,具有第2.3.2节中概述的属性。对于任何函数 𝐹(2) ,定义 𝐹(𝑀) ,以及它们的聚合函数对应地通过等式6如下:

Arithmetic average: 算术平均值:𝐹(𝑀)⁢(𝒙𝛼,𝑿1:𝑀≠𝛼)=log⁡(1𝑀−1⁢∑𝛽≠𝛼𝑒𝐹(2)⁢(𝒙𝛼,𝒙𝛽)),(9)
Geometric average: 几何平均值:𝐹(𝑀)⁢(𝒙𝛼,𝑿1:𝑀≠𝛼)=1𝑀−1⁢∑𝛽≠𝛼𝐹(2)⁢(𝒙𝛼,𝒙𝛽).(10)

Both functions satisfy the properties in Section 2.3.2 (see Section C.4 for proof).
这两个函数都满足2.3.2节中的性质(证明见C.4节)。

To establish a connection to contrastive losses, we introduce notation for sampling the causal graph in Figure 0(b). From the joint distribution 𝑝𝐗1:𝑀, we draw 𝐾 independent samples denoted by:
为了与对比损失建立联系,我们引入了图0(B)中因果图的采样符号。从联合分布 𝑝𝐗1:𝑀 中,我们提取 𝐾 独立样本,表示为:

{𝐗𝑖,1:𝑀}𝑖=1𝐾={(𝐱𝑖,1,…,𝐱𝑖,𝑀)}𝑖=1𝐾={{𝐱𝑖,𝛼}𝛼=1𝑀}𝑖=1𝐾=𝐗1:𝐾,1:𝑀i.e. ⁢𝐗𝑖,𝛼=𝐱𝑖,𝛼.(11)

Evaluating the functions in Equations 9 and 10 in Theorem 2.1 reveals the lower bound on One-vs-Rest MI and the Poly-view Contrastive Losses (Theorem 2.2, see Section C.5 for the proof).
对定理2.1中的等式9和10中的函数进行评估,揭示了一对静止MI和多视图对比损失的下限(定理2.2,证明见第C.5节)。

Theorem 2.2 (Arithmetic and Geometric PVC lower bound One-vs-Rest MI)
定理2.2(算术和几何PVC下限一对静止MI).

For any 𝐾, 𝑀≥2, 𝐵=𝐾⁢𝑀, 𝛼∈[𝑀], any scalar function 𝑓:𝒞×𝒞↦ℝ, and map ℎ:𝒳↦𝒞, we have
对于任何 𝐾 、 𝑀≥2 、 𝐵=𝐾⁢𝑀 、 𝛼∈[𝑀] 、任何标量函数 𝑓:𝒞×𝒞↦ℝ 和映射 ℎ:𝒳↦𝒞 ,我们有

ℐ⁢(𝐱𝛼;𝐗1:𝑀≠𝛼)≥𝑐⁢(𝐵,𝑀)+𝔼⁢[1𝐾⁢∑𝑖=1𝐾log⁡1𝑀−1⁢∑𝛽≠𝛼ℓ𝑖,𝛼,𝛽]≡𝑐⁢(𝐵,𝑀)−ℒArithmetic PVC,(12)
ℐ⁢(𝐱𝛼;𝐗1:𝑀≠𝛼)≥𝑐⁢(𝐵,𝑀)+𝔼⁢[1𝐾⁢∑𝑖=1𝐾1𝑀−1⁢∑𝛽≠𝛼log⁡ℓ𝑖,𝛼,𝛽]≡𝑐⁢(𝐵,𝑀)−ℒGeometric PVC,(13)

where 𝑐⁢(𝐵,𝑀)=log⁡(𝐵−𝑀+1), the expectation is over 𝐾 independent samples 𝐗1:𝐾,1:𝑀, and
其中 𝑐⁢(𝐵,𝑀)=log⁡(𝐵−𝑀+1) ,期望值超过 𝐾 独立样本 𝐗1:𝐾,1:𝑀 ,以及

ℓ𝑖,𝛼,𝛽⁢(𝐗1:𝐾,1:𝑀)=𝑒𝑓⁢(~⁢𝐱𝑖,𝛼,~⁢𝐱𝑖,𝛽)𝑒𝑓⁢(~⁢𝐱𝑖,𝛼,~⁢𝐱𝑖,𝛽)+∑𝑗≠𝑖∑𝛾=1𝑀𝑒𝑓⁢(~⁢𝐱𝑗,𝛾,~⁢𝐱𝑖,𝛽),~⁢𝐱𝑖,𝛼=ℎ⁢(𝐱𝑖,𝛼).(14)

We have written ℓ𝑖,𝛼,𝛽 instead of ℓ𝑖,𝛼,𝛽⁢(𝐗1:𝐾,1:𝑀) where the meaning is clear.
我们写了 ℓ𝑖,𝛼,𝛽 而不是 ℓ𝑖,𝛼,𝛽⁢(𝐗1:𝐾,1:𝑀) ,意思很清楚。

Maximizing lower-bound means maximizing map ℎ, leading to ℎ⋆ in Figure 0(b). In Section C.5, we show 𝐹(2)⁢(𝑿~𝑖,𝛼,𝒙𝑖,𝛽)=𝑐⁢(𝐵,𝑀)+log⁡ℓ𝑖,𝛼,𝛽, where 𝐗~𝑖,𝛼={𝐗𝑗,𝛽}𝑗≠𝑖,𝛽⁢⋃{𝐱𝑖,𝛼}.
最大化下限意味着最大化图 ℎ ,导致图0(B)中的 ℎ⋆ 。在第C.5节中,我们展示了 𝐹(2)⁢(𝑿~𝑖,𝛼,𝒙𝑖,𝛽)=𝑐⁢(𝐵,𝑀)+log⁡ℓ𝑖,𝛼,𝛽 ,其中 𝐗~𝑖,𝛼={𝐗𝑗,𝛽}𝑗≠𝑖,𝛽⁢⋃{𝐱𝑖,𝛼} 。

Tightness of MI Gap MI间隙的紧密性

Valid property (Equation 8) ensures that the lower-bound for a fixed 𝑀 has a smaller MI Gap than the average MI Gap of those views. Without loss of generality, taking 𝛼=1, a valid solution guarantees that the MI Gap for 𝑀>2 is smaller than the MI Gap for 𝑀=2. The DPI implies that for 𝑁≥𝑀 and fixed 𝛼, ℐ⁢(𝐱𝛼;𝐗1:𝑀≠𝛼)≤ℐ⁢(𝐱𝛼;𝐗1:𝑁≠𝛼). One would expect the lower-bound to be also increasing, which indeed is the case. In fact, we can prove more; consider that the MI Gap is monotonically non-increasing with respect to 𝑀3, i.e. the MI Gap would either become tighter or stay the same as 𝑀 grows. We show that the aggregation functions by Equations 9 and 10 have this property (Theorem 2.3, see Section C.6 for the proof).
有效属性(公式8)确保固定 𝑀 的下限具有比这些视图的平均MI间隙更小的MI间隙。不失一般性,采用 𝛼=1 ,有效的解决方案保证 𝑀>2 的MI间隙小于 𝑀=2 的MI间隙。DPI意味着对于 𝑁≥𝑀 和固定的 𝛼 、 ℐ⁢(𝐱𝛼;𝐗1:𝑀≠𝛼)≤ℐ⁢(𝐱𝛼;𝐗1:𝑁≠𝛼) 。人们会期望下限也在增加,事实确实如此。事实上,我们可以证明更多;考虑到MI间隙相对于 𝑀 3 单调非增加,即MI间隙将随着 𝑀 的增长而变得更紧或保持不变。我们证明了方程9和10的聚集函数具有此性质(定理2.3,证明见C.6节)。

Theorem 2.3 定理2.3.

For fixed 𝛼, the MI Gap of Arithmetic and Geometric PVC are monotonically non-increasing with 𝑀:
对于固定的 𝛼 ,算术和几何PVC的MI间隙随 𝑀 单调非递增:

𝒢MI⁢(𝐗1:𝑀2;𝑔𝛼(𝑀2))≤𝒢MI⁢(𝐗1:𝑀1;𝑔𝛼(𝑀1))∀𝑀1≤𝑀2.(15)
Recovering existing methods
恢复现有方法

Arithmetic and Geometric PVC optimize One-vs-Rest MI. 𝑀=2 gives the two-view MI that SimCLR maximizes and the corresponding loss (see Section E.2). Additionally, for a choice of 𝐹(2), we recover SigLIP (Zhai et al., 2023b), providing an information-theoretic perspective for that class of methods (see Section E.3).
算术和几何PVC优化了One-vs-Rest MI。 𝑀=2 给出Simplified最大化的双视图MI和相应的损失(参见第E.2节)。另外,对于 𝐹(2) 的选择,我们恢复SigLIP(Zhai等人,2023 b),为这类方法提供了一个信息论的视角(见E.3节)。

2.4Finding generalized sufficient statistics as contrastive learning
2.4寻找广义充分统计作为对比学习

Now we develop our second objectives that use 𝑀 views at once. Using a probabilistic perspective of the causal graph (Figure 0(b)), we show how to recover the generative factors with sufficient statistics (Section 2.4.1). We then explain how sufficient statistics connects to InfoMax, and derive further poly-view contrastive losses (Section 2.4.2). Finally, we will see that the approaches of MI lower-bound maximization of Section 2.3, and sufficient statistics are connected.
现在我们开发第二个目标,它同时使用 𝑀 视图。使用因果图的概率视角(图0(B)),我们展示了如何用足够的统计数据恢复生成因子(第2.4.1节)。然后,我们解释了足够的统计数据如何连接到InfoMax,并得出进一步的多视图对比损失(第2.4.2节)。最后,我们将看到2.3节的MI下界最大化方法和充分统计量是相关联的。

2.4.1Representations are poly-view sufficient statistics
2.4.1表示是多视图充分统计

To develop an intuition for the utility of sufficient statistics for representation learning, we begin in the simplified setting of an invertible generative process, ℎ=𝜌−1, and a lossless view generation procedure 𝜂𝛼: ℐ⁢(𝐜;𝜂𝛼⁢(𝐱))=ℐ⁢(𝐜;𝐱). If the function space ℋ is large enough, then ∃ℎ∈ℋ such that 𝐜^=ℎ⁢(𝐱)=𝐜. Using the DPI for invertible functions, we have
为了直观地了解充分的统计数据对表示学习的效用,我们开始于可逆生成过程 ℎ=𝜌−1 和无损视图生成过程 𝜂𝛼 : ℐ⁢(𝐜;𝜂𝛼⁢(𝐱))=ℐ⁢(𝐜;𝐱) 的简化设置。如果函数空间 ℋ 足够大,则可以使用 ∃ℎ∈ℋ ,使得 𝐜^=ℎ⁢(𝐱)=𝐜 。对于可逆函数使用DPI,我们有

maxℎ∈ℋ⁡ℐ⁢(𝐱;ℎ⁢(𝐱))=ℐ⁢(𝐱;𝐜)=maxℎ∈ℋ⁡ℐ⁢(ℎ⁢(𝐱);𝐜).(16)

If we let ℎ⋆=arg⁢maxℎ∈ℋ⁡ℐ⁢(𝐱;ℎ⁢(𝐱)), then ℎ⋆⁢(𝐱) is a sufficient statistic of 𝐱 with respect to 𝐜 (see e.g. Cover & Thomas (2006)), and the information maximization here is related to InfoMax.
如果我们让 ℎ⋆=arg⁢maxℎ∈ℋ⁡ℐ⁢(𝐱;ℎ⁢(𝐱)) ,那么 ℎ⋆⁢(𝐱) 是 𝐱 相对于 𝐜 的充分统计量(参见例如Cover &托马斯(2006)),这里的信息最大化与InfoMax有关。

If we knew the conditional distribution 𝑝𝐱|𝐜, finding the sufficient statistics 𝑇⁢(𝐱) of 𝐱 with respect to 𝐜 gives 𝑇=ℎ⋆. In general, we do not know 𝑝𝐱|𝐜, and generative processes are typically lossy.
如果我们知道条件分布 𝑝𝐱|𝐜 ,找到关于 𝐜 的 𝐱 的充分统计量 𝑇⁢(𝐱) ,得到 𝑇=ℎ⋆ 。一般来说,我们不知道 𝑝𝐱|𝐜 ,并且生成过程通常是有损的。

Therefore, to make progress and find ℎ⋆=arg⁢maxℎ∈ℋ⁡ℐ⁢(𝐱;ℎ⁢(𝐱)) with sufficient statistics, we need to estimate 𝑝𝐱|𝐜. For this purpose, we use view multiplicity; we know from DPI that a larger set of views 𝐗1:𝑀 may contain more information about 𝐜, i.e. ℐ⁢(𝐗1:𝑀2;𝐜)≥ℐ⁢(𝐗1:𝑀1;𝐜) for 𝑀2≥𝑀1. Our assumptions for finding the sufficient statistics 𝑇𝐲⁢(𝐱) of 𝐱 with respect to 𝐲 are
因此,为了取得进展并找到具有足够统计数据的 ℎ⋆=arg⁢maxℎ∈ℋ⁡ℐ⁢(𝐱;ℎ⁢(𝐱)) ,我们需要估计 𝑝𝐱|𝐜 。为此,我们使用视图多样性;我们从DPI中知道,更大的视图集合 𝐗1:𝑀 可能包含更多关于 𝐜 的信息,即 ℐ⁢(𝐗1:𝑀2;𝐜)≥ℐ⁢(𝐗1:𝑀1;𝐜) 对于 𝑀2≥𝑀1 。我们关于 𝐲 找到 𝐱 的充分统计量 𝑇𝐲⁢(𝐱) 的假设是

  1. 1. 

    The poly-view conditional 𝑝𝐱𝛼|𝐗1:𝑀≠𝛼 is a better estimate for 𝑝𝐱𝛼|𝐜 for larger 𝑀,


    1.对于较大的 𝑀 ,多视图条件 𝑝𝐱𝛼|𝐗1:𝑀≠𝛼 是 𝑝𝐱𝛼|𝐜 的更好估计,
  2. 2. 

    All views have the same generative factor: 𝑇𝐜⁢(𝐱𝛼)=𝑇𝐜⁢(𝐱𝛽),


    2.所有视图具有相同的生成因子: 𝑇𝐜⁢(𝐱𝛼)=𝑇𝐜⁢(𝐱𝛽) ,

The representations are given by a neural network and are therefore finite-dimensional. It means that the generative factor is assumed to be finite-dimensional. Fisher-Darmois-Koopman-Pitman theorem (Daum, 1986) proves that the conditional distributions 𝑝𝐱𝛼|𝐗1:𝑀≠𝛼 and 𝑝𝐱𝛼|𝐜 are exponential families, i.e. for some functions 𝑟1,𝑟2,𝑇 and reorderable function (Section 2.3.2) 𝑄:
这些表示由神经网络给出,因此是有限维的。这意味着生成因子被假定为有限维的。Fisher-Darmois-Koopman-Pitman定理(Daum,1986)证明了条件分布 𝑝𝐱𝛼|𝐗1:𝑀≠𝛼 和 𝑝𝐱𝛼|𝐜 是指数族,即对于某些函数 𝑟1,𝑟2,𝑇 和可重序函数(第2.3.2节) 𝑄 :

𝑝𝐱𝛼|𝐗1:𝑀≠𝛼=𝑟1⁢(𝐱𝛼)⁢𝑟2⁢(𝐗1:𝑀≠𝛼)⁢exp⁡(𝑇𝐗1:𝑀≠𝛼⁢(𝐱𝛼)⋅𝑄⁢(𝐗1:𝑀≠𝛼)),(17)
𝑝𝐱𝛼|𝐜=𝑟1⋆⁢(𝐱𝛼)⁢𝑟2⋆⁢(𝐜)⁢exp⁡(𝑇𝐜⁢(𝐱𝛼)⋅𝑄⋆⁢(𝐜)).(18)

The first assumption says that for any 𝑀, it is enough to find the sufficient statistics of 𝐱𝛼 with respect to 𝐗1:𝑀≠𝛼 as an estimate for 𝑇𝐜⁢(𝐱𝛼). Since the estimation of the true conditional distribution becomes more accurate as 𝑀 grows,
第一个假设是,对于任何 𝑀 ,找到 𝐱𝛼 关于 𝐗1:𝑀≠𝛼 的足够统计量作为 𝑇𝐜⁢(𝐱𝛼) 的估计就足够了。由于真实条件分布的估计随着 𝑀 的增长而变得更准确,

lim sup𝑀→∞‖𝑇𝐜⁢(𝐱𝛼)−𝑇𝐗1:𝑀≠𝛼⁢(𝐱𝛼)‖→0,lim sup𝑀→∞‖𝑄⋆⁢(𝐜)−𝑄⁢(𝐗1:𝑀≠𝛼)‖→0.(19)

We see that sufficient statistics gives us a new perspective on InfoMax for representation learning: representations for 𝐱 are sufficient statistics of 𝐱 with respect to the generative factor 𝐜, which can be approximated by sufficient statistics of one view 𝐱𝛼 with respect to the other views 𝐗1:𝑀≠𝛼.
我们看到,足够的统计数据为我们提供了一个关于InfoMax的表示学习的新视角: 𝐱 的表示是 𝐱 相对于生成因子 𝐜 的足够统计数据,这可以通过一个视图 𝐱𝛼 相对于其他视图 𝐗1:𝑀≠𝛼 的足够统计数据来近似。

2.4.2Poly-view sufficient contrastive objectives
2.4.2多视角充分对比目标

As in Section 2.3.3, we begin by outlining our notation for samples from the empirical distribution. Let us assume that we have the following dataset of 𝐾 independent 𝑀-tuples:
与2.3.3节一样,我们开始先概述经验分布样本的符号。让我们假设我们有下面的 𝐾 独立 𝑀 元组的数据集:

𝒟={(𝐱𝑖,𝛼,𝐗𝑖,1:𝑀≠𝛼)}⁢⋃{(𝐱𝑗,𝛼,𝐗𝑗,1:𝑀≠𝛼)}𝑗≠𝑖𝐾.(20)

Following Section 2.4.1, the goal is to distinguish between conditionals 𝑝𝐱𝑖,𝛼|𝐗𝑖,1:𝑀≠𝛼 and 𝑝𝐱𝑖,𝛼|𝐗𝑗,1:𝑀≠𝛾 for any 𝑗≠𝑖 and 𝛾, i.e. classify 𝐱𝑖,𝛼 correctly ∀𝑖∈[𝐾], giving the following procedure for finding the sufficient statistics 𝑇⋆ and 𝑄⋆.
在第2.4.1节之后,目标是区分任何 𝑗≠𝑖 和 𝛾 的条件 𝑝𝐱𝑖,𝛼|𝐗𝑖,1:𝑀≠𝛼 和 𝑝𝐱𝑖,𝛼|𝐗𝑗,1:𝑀≠𝛾 ,即正确分类 𝐱𝑖,𝛼 和 ∀𝑖∈[𝐾] ,给出以下程序来找到足够的统计量 𝑇⋆ 和 𝑄⋆ 。

𝑇⋆,𝑄⋆=arg⁢max𝑇,𝑄⁡𝑝𝐱𝑖,𝛼|𝐗𝑖,1:𝑀≠𝛼𝑝𝐱𝑖,𝛼|𝐗𝑖,1:𝑀≠𝛼+∑𝑗≠𝑖𝐾∑𝛾=1𝑀𝑝𝐱𝑖,𝛼|𝐗𝑗,1:𝑀≠𝛾=arg⁢max𝑇,𝑄⁡ℓ~𝑖,𝛼,(21)

leading to the the sufficient statistics contrastive loss (Equation 22),
导致足够的统计对比损失(公式22),

ℒSuffStats=−𝔼⁢[1𝐾⁢∑𝑖=1𝐾1𝑀⁢∑𝛼=1𝑀log⁡ℓ~𝑖,𝛼],ℓ~𝑖,𝛼=𝑒𝑇𝑖,𝛼𝖳⁢𝑄𝑖,𝛼~𝑒𝑇𝑖,𝛼𝖳⁢𝑄𝑖,𝛼~+∑𝑗=1𝐾∑𝛾=1𝑀𝑒𝑇𝑖,𝛼𝖳⁢𝑄𝑗,𝛾~,(22)

where 𝒙𝖳 denotes vector transposition, 𝑇𝑖,𝛼≡𝑇⁢(𝐱𝑖,𝛼), and 𝑄𝑖,𝛼~≡𝑄⁢(𝐗𝑖,1:𝑀≠𝛼).
其中 𝒙𝖳 表示向量转置, 𝑇𝑖,𝛼≡𝑇⁢(𝐱𝑖,𝛼) 和 𝑄𝑖,𝛼~≡𝑄⁢(𝐗𝑖,1:𝑀≠𝛼) 表示向量转置。

Designing 𝑸 设计 𝑸

As 𝑄 parameterizes the conditional (Equation 17), it is reorderable. Choices for 𝑄 include DeepSets (Zaheer et al., 2017) and Transformers (Vaswani et al., 2017). Requiring 𝑀=2 to recover SimCLR (Chen et al., 2020a) implies 𝑄⁢(𝐱)=𝑇⁢(𝐱), so for simplicity, we restrict ourselves to pooling operators over 𝑇. Finally, we want the representation space to have no special direction, which translates to orthogonal invariance of the product of 𝑇 and 𝑄
由于 𝑄 参数化了条件(等式17),因此它是可重新排序的。 𝑄 的选择包括DeepSets(Zaheer等人,2017)和变形金刚(Vaswani等人,2017年)。需要 𝑀=2 来恢复Simplified(Chen等人,2020a)意味着 𝑄⁢(𝐱)=𝑇⁢(𝐱) ,因此为了简单起见,我们将自己限制为 𝑇 上的池运算符。最后,我们希望表示空间没有特殊的方向,这转化为 𝑇 和 𝑄 的乘积的正交不变性。

[𝑶⁢𝑇⁢(𝐱𝛼)]𝖳⁢𝑄⁢({𝑶⁢𝑇⁢(𝐱𝛽):𝛽≠𝛼})=𝑇⁢(𝐱𝛼)𝖳⁢𝑄⁢({𝑇⁢(𝐱𝛽):𝛽≠𝛼}),(23)

i.e. 𝑄 is equivariant 𝑄⁢({𝑶⁢𝑇⁢(𝐱𝛽):𝛽≠𝛼})=𝑶⁢𝑄⁢({𝑇⁢(𝐱𝛽):𝛽≠𝛼}) which is satisfied by
即 𝑄 是等变的 𝑄⁢({𝑶⁢𝑇⁢(𝐱𝛽):𝛽≠𝛼})=𝑶⁢𝑄⁢({𝑇⁢(𝐱𝛽):𝛽≠𝛼}) ,满足

𝑄⁢(𝐗1:𝑀≠𝛼)=𝑄⁢({𝑇⁢(𝐱𝛽):𝛽≠𝛼})=1𝑀−1⁢∑𝛽≠𝛼𝑀𝑇⁢(𝐱𝛽)≡𝑇¯⁢(𝐗1:𝑀≠𝛼)≡𝑇¯𝛼~.(24)

With the choice 𝑄=𝑇¯𝛼~, when 𝑀=2, ℒSuffStats (Equation 22) recovers SimCLR (see Section E.2 for the detailed connection), and therefore lower bounds two-view MI. For general 𝑀, ℒSuffStats lower bounds One-vs-Rest MI (Theorem 2.4).
通过选择 𝑄=𝑇¯𝛼~ ,当 𝑀=2 时, ℒSuffStats (公式22)恢复Simplified(详细连接见第E.2节),因此降低了双视图MI的下限。对于一般的 𝑀 , ℒSuffStats 下界One-vs-Rest MI(定理2.4)。

Theorem 2.4 (Sufficient Statistics lower bound One-vs-Rest MI)
定理2.4(充分统计下界一对静止MI).

For any 𝐾, 𝑀≥2, 𝐵=𝐾⁢𝑀, 𝛼∈[𝑀], and the choice of 𝑄 in Equation 24, we have (see Section C.7 for the proof)
对于方程24中的任何 𝐾 、 𝑀≥2 、 𝐵=𝐾⁢𝑀 、 𝛼∈[𝑀] 和 𝑄 的选择,我们有(见C.7节的证明)

ℐ⁢(𝐱𝛼;𝐗1:𝑀≠𝛼)≥𝑐⁢(𝐵,𝑀)+𝔼⁢[1𝐾⁢∑𝑖=1𝐾log⁡ℓ~𝑖,𝛼],(25)

where 𝑐⁢(𝐵,𝑀)=log⁡(𝐵−𝑀+1), the expectation is over 𝐾 independent samples 𝐗1:𝐾,1:𝑀.
其中 𝑐⁢(𝐵,𝑀)=log⁡(𝐵−𝑀+1) ,期望值超过 𝐾 独立样本 𝐗1:𝐾,1:𝑀 。

Theorem 2.4 completes the connection between Sufficient Statistics and InfoMax (Section 2.1). We note that contrary to Average and Geometric PVC (Equations 9 and 10), the Sufficient Statistics objective for 𝑀>2 (Equation 25cannot be written using 𝐹(2) as a function basis.
定理2.4完成了充分统计和InfoMax之间的联系(第2.1节)。我们注意到,与平均和几何PVC(公式9和10)相反,无法使用 𝐹(2) 作为函数基础来编写 𝑀>2 (公式25)的充分统计目标。

3Experiments 3实验

3.1Synthetic 1D Gaussian 3.1合成一维高斯

Our first interests are to check our intuition and to validate how well each objective bounds the One-vs-Rest MI as described in Theorems 2.2 and 2.4. We begin with a 1D Gaussian setting, which for the generative graph (Figure 0(b)) corresponds to Independent and Identically Distributed (i.i.d.) samples 𝐜𝑖∼𝑁⁢(0,𝜎02) for 𝑖∈[𝐾], 𝜌 is identity map, and views 𝐱𝑖,𝛼∼𝑁⁢(𝐜𝑖,𝜎2) for each 𝛼∈[𝑀] and 𝑖. One can compute One-vs-Rest MI in closed form (see Section E.6 for the proof):
我们的第一个兴趣是检查我们的直觉,并验证每个目标如何很好地限制了定理2.2和2.4中描述的一对一的MI。我们开始以 1 D高斯设置,其对于生成图(图0(B))对应于独立且同分布(i.i.d.)样本 𝐜𝑖∼𝑁⁢(0,𝜎02) 用于 𝑖∈[𝐾] , 𝜌 是身份映射,视图 𝐱𝑖,𝛼∼𝑁⁢(𝐜𝑖,𝜎2) 用于每个 𝛼∈[𝑀] 和 𝑖 。我们可以计算封闭形式的One-vs-Rest MI(见E.6节的证明):

ℐ⁢(𝐱𝑖,𝛼;𝐗𝑖,1:𝑀≠𝛼)=12⁢log⁡[(1+𝜎02𝜎2)⁢(1−𝜎02𝜎2+𝑀⁢𝜎02)],(26)

which, as anticipated (Section 2.1), is an increasing function of 𝑀. Using the closed form for Gaussian differential entropy, we see:
正如预期的那样(第2.1节),它是 𝑀 的递增函数。使用高斯微分熵的封闭形式,我们可以看到:

lim sup𝑀→∞ℐ⁢(𝐱𝛼;𝐗1:𝑀≠𝛼)=H⁢(𝐱𝛼)−H⁢(𝐱𝛼|𝐜)=ℐ⁢(𝐱𝛼;𝐜),(27)

i.e. One-vs-Rest MI becomes a better proxy for InfoMax as 𝑀 increases. Finally, we can evaluate the conditional distribution for large 𝑀 and see (see Section E.6 for the proof):
即,随着 𝑀 的增加,One-vs-Rest MI成为InfoMax的更好代理。最后,我们可以评估大 𝑀 的条件分布,并看到(见E.6节的证明):

lim𝑀→∞𝑝𝐱𝑖,𝛼|𝐗𝑖,1:𝑀≠𝛼=𝑝𝐱𝑖,𝛼|𝐜𝑖,(28)

validating our first assumption for Sufficient Statistics (Section 2.4.1).
验证我们的第一个充分统计假设(第2.4.1节)。

To empirically validate our claims we train a Multi-Layer Perceptron (MLP) with the architecture (1->32, GeLU, 32->32) using the objectives presented in Sections 2.22.3.3 and 2.4 on the synthetic Gaussian setup. We use AdamW (Loshchilov & Hutter, 2019) with learning rate 5×10−4 and weight decay 5×10−3, generate 𝐾=1024 1D samples in each batch, 𝑀 views of each sample, and train each method for 200 epochs.
为了从经验上验证我们的主张,我们在合成高斯设置上使用第2.2,2.3.3和2.4节中提出的目标训练具有架构(1-> 32,GeLU,32-> 32)的多层感知器(MLP)。我们使用AdamW(Loshchilov & Hutter,2019),学习率为 5×10−4 ,权重衰减为 5×10−3 ,在每个批次中生成 𝐾=1024 1D样本,每个样本的 𝑀 视图,并为 200 epochs训练每个方法。

We compare One-vs-Rest lower bounds of these different objectives to the true value (Equation 26). In Figure 2, we see that increasing multiplicity 𝑀 decreases the MI Gap for Geometric, Arithmetic and Sufficient, with Geometric having the lowest gap, whereas for Multi-Crop, the MI Gap increases, validating Theorem 2.3 and Proposition 2.1. The Multi-Crop loss expectation is also 𝑀-invariant, whereas its variance reduces, as was proven in Section 2.2.
我们将这些不同目标的One-vs-Rest下限与真实值进行比较(公式26)。在图2中,我们看到增加多重性 𝑀 减小了几何、算术和足够的MI间隙,其中几何具有最低间隙,而对于多作物,MI间隙增加,验证了定理2.3和命题2.1。多作物损失期望也是 𝑀 不变的,而其方差减小,如2.2节所证明的。

  • 30
    点赞
  • 26
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

c2a2o2

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值