摘要
无监督表示学习取得了巨大进步,但受到其对数据模态特定的平稳性和拓扑结构的依赖的限制,这是生物智能系统中没有的限制。例如,人类视觉处理来自不规则和非平稳采样格的视觉信号,并准确地感知世界的几何形状。我们引入了一种新颖的框架,可以从缺乏平稳性和拓扑的高维数据中学习。我们的模型结合了可学习的自组织层、密度调整谱聚类和屏蔽自动编码器。我们评估其对模拟生物视觉数据、初级视觉皮层的神经记录和基因表达数据集的有效性。与 SimCLR 和 MAE 等最先进的无监督学习方法相比,我们的模型擅长跨不同模式学习有意义的表示,而不依赖于平稳性或拓扑。它还优于不依赖于这些因素的其他方法,在该领域树立了新的基准。这项工作代表了向无监督学习方法迈出的一步,该方法可以泛化各种高维数据模式。
拟解决的问题
现有的无监督表示学习方法,如对比学习和掩码自编码器,在图像、视频、音频、时间序列和点云等典型模态上表现良好,但它们隐含地假设了数据域的拓扑和平稳性。然而,生物视觉系统能够处理不规则和非平稳的采样格子,并且能准确感知世界的几何结构。URLOST 旨在解决现有方法在处理未知拓扑或不平稳的高维信号时的局限性。
创新点
- 自组织层:引入了一个可学习的自组织层,用于对数据进行对齐和转换。
- 密度调整的谱聚类:提出了一种新的谱聚类方法,考虑了数据的非平稳性,通过调整密度函数来改善聚类质量。
- 掩码自编码器:使用基于 Transformer 的掩码自编码器进行无监督学习,以重建信号。
方法论
如图所示:
- 左侧展示了传统的无监督表示学习,特别是联合嵌入(Joint Embedding)和掩码自编码器(MAE)。这些方法通常依赖于数据的某种程度的平稳性(stationarity)和拓扑结构(topology),例如图像中的像素网格结构。
- 右侧通过非结构化传感器感知并理解没有平稳性或拓扑的信号的生物视觉系统以及自然科学中更多如此多样化的高维信号,我们的方法支持,而大多数现有的无监督方法则没有。
URLOST 的整体框架是首先使用低级统计和聚类来近似信号的拓扑结构,然后将这些聚类作为掩码自编码器的输入。自组织层负责通过可学习的变换对这些聚类进行对齐。如下图所示:
URLOST由三个核心组件组成:密度调整谱聚类、自组织层和掩码自动编码器。
密度调整谱聚类
一种用于处理高维信号的方法,特别是当信号缺乏明确的拓扑结构时。这种方法的核心思想是通过调整聚类的密度函数来改善聚类的质量,从而更好地近似信号的拓扑结构。
原理:
- 定义度量标准:首先定义一个度量标准来衡量高维信号中不同维度之间的关系。在论文中,作者使用离散互信息(Discrete Mutual Information)作为这个度量标准。
- 构建亲和矩阵:利用上述度量标准,构建一个亲和矩阵(Affinity Matrix),其中每个元素表示第𝑖维和第𝑗维之间的互信息。
- 密度函数:引入一个密度函数𝑝(𝑥),用于调整聚类过程中每个信号点的权重。这个密度函数是可变的,可以根据信号的特性进行调整,以适应非平稳信号。
步骤:
- 构建拉普拉斯矩阵:基于亲和矩阵𝐴和密度函数𝑝(𝑖),构建拉普拉斯矩阵𝐿。这通常涉及到构建一个对角矩阵𝐷,其对角线上的元素是亲和矩阵中对应行的和,然后计算。
- 计算特征向量:计算拉普拉斯矩阵𝐿的𝑘个最大的特征向量,这些特征向量将用于聚类分析。
- 归一化:将特征向量进行归一化处理,使得每个特征向量的长度为1。
- 聚类:将归一化的特征向量视为空间中的点,然后使用K-means或其他聚类算法对这些点进行聚类。
实验部分验证了密度调整的谱聚类在处理模拟生物视觉数据和初级视觉皮层神经响应数据时的有效性。通过与其他聚类方法的比较,证明了密度调整可以显著提高聚类的性能。
自组织层
自组织层的主要目的是将通过谱聚类得到的信号簇(clusters)转换成有序的序列,以便于后续的无监督学习任务,如掩码自编码器的训练。由于聚类可能在大小、形状和位置上都不均匀,自组织层通过学习转换来对齐这些聚类,从而捕捉它们内部的结构。
工作原理:
- 输入表示:将信号的每个聚类视为一个输入单元,记为 𝑥(𝑖),其中 𝑖 表示聚类索引。
- 可学习变换:为每个聚类 𝑥(𝑖) 应用一个可学习的变换函数 𝑔(⋅,𝑤(𝑖)),其中 𝑤(𝑖) 是与聚类 𝑖 相关的参数。这个变换函数是可微分的,允许通过梯度下降等优化算法进行学习。
- 序列生成:通过变换函数处理所有聚类,生成一个新的序列 𝑧0=[𝑔(𝑥(1), 𝑤(1)), …, 𝑔(𝑥(𝑀), 𝑤(𝑀))] ,其中 𝑀 是聚类的数量。
- 联合优化:自组织层的参数集合 {𝑤(1),…,𝑤(𝑀)} 与后续的神经网络(例如掩码自编码器)的参数一起进行联合优化。
掩码自编码器
MAE由两部分组成:编码器(Encoder)和解码器(Decoder)。编码器将输入数据映射到一个低维的潜在空间,而解码器则试图从这个潜在空间重构原始数据。在训练过程中,MAE会随机掩码掉输入数据的一部分,然后训练模型去预测这些被掩码的部分,训练后,编码器的输出被视为下游任务的输入信号的学习表示。
工作原理:
- 输入处理:输入数据首先通过自组织层进行对齐和转换,然后送入MAE。
- 掩码操作:在输入数据中随机选择一部分进行掩码,这些部分在训练过程中不会被模型直接观察到。
- 编码器:未被掩码的输入数据通过编码器,被映射到一个低维的潜在表示空间。
- 解码器:编码器的输出通过解码器重建,尝试重构原始的掩码部分。
- 损失计算:计算重建损失,通常是掩码部分的预测值和实际值之间的均方误差。
- 端到端训练:通过最小化重建损失,同时优化编码器、解码器和自组织层的参数。
结论
URLOST方法的无监督特性体现在它不需要任何形式的标签或指导信息来学习数据的表示。它通过自身的结构设计和训练过程,从数据本身提取出有用的信息和模式。这种方法特别适用于那些难以获取标签数据或者数据结构不规则、不平稳的场景。通过自组织层和掩码自编码器的结合,URLOST能够从复杂的高维数据中学习到鲁棒且有意义的表示。