【论文笔记】NeuroLM: a universal multi-task foundation model... (ICLR 2025 Under review)-CSDN博客

本文链接：https://blog.csdn.net/qq_43811536/article/details/143982665

在这里插入图片描述

Code： ×
Data：×

Abstract

本文介绍了NeuroLM，这是一个多任务基础模型，它借鉴了大型语言模型（LLMs）的能力，将脑电图（EEG）信号视为一种外语，赋予模型多任务学习和推理能力。

NeuroLM首先通过向量量化时频预测学习一个与文本对齐的神经分词器（tokenizer），将EEG信号编码成离散的神经tokens。然后，这些由冻结的向量量化（VQ）编码器生成的EEG tokens被送入LLM，通过多通道自回归学习因果的EEG信息。因此，NeuroLM能够理解EEG和语言两种模态。最后，通过多任务指令调整，使NeuroLM适应各种下游任务。

NeuroLM是第一个通过与LLMs的特定结合，通过指令调整将不同的EEG任务统一在一个模型中。NeuroLM-XL是其最大变体，拥有创纪录的17亿参数用于EEG信号处理，并在大约 25,000小时 的大规模EEG数据语料库上进行预训练。在六个不同的下游数据集上评估时，NeuroLM展示了这种多任务学习范式的巨大潜力。

Introduction

背景：现有的一些使用大型数据集进行预训练的方法有效地解决了EEG的低信噪比、固有的非平稳性以及数据采集的多样化配置等挑战，但它们仍然需要对每个下游数据集进行 单独微调 才能获得令人印象深刻的改进。这限制了微调模型只能执行单个任务。此外，这种特定于任务的微调需要大量的计算和存储资源。
动机：在过去的几年里，大型语言模型（LLMs）的出现带来了显着的进步，并展示了非凡的新兴能力。受多模态大语言模型 (MLLM)的启发，作者通过将 EEG 信号合并到现有的 LLM 中，揭示了将多个 EEG 任务集成到统一模型中的新方向。
挑战：
- EEG-文本嵌入对齐：与受益于大量高质量图像-文本对的视觉语言模型不同，由于从给定脑电图片段中提取语义信息很困难，因此没有可用的已建立的脑电图文本对。
- 与LLMs一起进行有效的表征学习：主流方法采用EEG的掩码建模来有效提取信号的表征。在整合LLMs时，如何 在LLMs范式中学习通用信息 仍然是一个未解决的问题。
- 各种EEG任务的统一多任务学习：由于不同任务的多样性和特殊性，将多个EEG任务集成到一个统一的模型中是很复杂的。开发一个可以 无缝处理各种任务 而不影响任何单个任务的性能的模型是一项重大挑战。
贡献：鉴于上述挑战，作者提出了 NeuroLM，一种用于脑电信号处理的通用多任务基础模型。
- EEG-文本对齐的神经tokenizer：引入了一种文本对齐的神经tokenizer，它可以有效地弥合EEG和文本数据之间的差距。该tokenizer使用矢量量化（VQVAE）时频预测将EEG信号转换为离散代码（CodeBook），通过对抗性训练促进脑电图和文本嵌入的对齐。
- 大规模多通道自回归预训练： NeuroLM 采用多通道自回归，使模型能够学习不同EEG通道的因果表征。对 25,000 小时的脑电图数据进行预训练可确保 NeuroLM 捕获广泛的神经模式，从而增强其泛化不同脑电图任务的能力。
- 联合多任务调优和推理：作者表示他们率先使用联合多任务调整和推理进行EEG任务。通过为各种下游任务制定特定指令并采用多任务指令调整，NeuroLM 能够在单个模型中执行多个任务。这不仅通过减少对每项任务进行单独微调的需要来提高效率，而且还确保了各种应用程序的高性能。

Method

Text-aligned neural tokenizer

在这里插入图片描述

为了将EEG合并到现成的大语言模型中，首先需要将EEG信号编码为embeddings，其空间与文本embedding空间很好地对齐。这里的离散化EEG embeddings主要通过VQVAE架构实现。

EEG的patch化：多通道EEG数据 X = [C, T]，划分为 [C, N] 个patches，N是通过固定长度L的非重叠滑窗得到。
Neural Tokenizer：由 VQ encoder, codebook, temporal/frequency decoder, 以及 domain classifier 组成，最终要得到上图中彩色方块的embeddings。
Temporal-frequency Prediction：作者建议预测 原始信号和频率幅度 以捕获EEG信号的时域和频域信息（作者的前序工作 LaBraM 回归目标是傅里叶幅度和相位）。所以模型的损失由重建损失和CodeBook更新损失组成：
EEG-text Embedding Space Alignment：由于脑电信号包含复杂的认知和非认知信息，很难用人类语言准确、彻底地描述，且可用于构建EEG-文本对的有标记数据非常有限。因此作者建议将EEG与文本空间对齐，而不是和embeddings对齐。具体地，引入域分类器 C 来预测当前的embedings是来自 EEG 还是文本。在CodeBook的学习过程中，作者还提供了一些来自 LLM 的文本embeddings来训练域分类器。在 VQ 编码器之后 添加梯度反向层 （Ganin et al., 2016）以混淆域分类器。因此，VQ 编码器的embeddings属于文本embedding的同一空间。因此，文本对齐神经tokenizer的训练目标定义为：

在这里插入图片描述

VQ Encoder Architecture：与 LaBraM 的几乎完全相同。参考前文：https://jurio.blog.csdn.net/article/details/143954752

Multi-channel autoregressive pre-training

在这里插入图片描述

在将 EEG 数据传递到大型语言模型之前，首先冻结 VQ 编码器，并使用它将输入得 EEG 数据编码为与文本空间对齐的 EEG tokens。之后，加载预先训练的大型语言模型，并使用学习的EEG CodeBook扩大文本词汇量。通过多通道自回归来训练NeuroLM，即根据可见的tokens来预测下一个token，从而赋予模型学习EEG因果关系的特殊模式的能力。

作者使用阶梯式掩码，其中每个 EEG token都能够从当前和上一个时间步观察所有通道的tokens。优化目标如下：

在这里插入图片描述

Multi-task instruction tuning

在这个阶段，目标是利用LLMs的力量将不同的下游数据集整合为一个整体。同时在多通道自回归预训练和多任务指令调优阶段，作者在每次迭代时向模型提供一些文本数据保留LLMs的语言建模能力。作者为每个下游数据集构建指令，一个特殊的标记 [SEP] 用于连接 EEG 和文本指令，用来指示模态切换。损失仅针对文本的答案部分进行计算，以使预测更加稳定。假设 $x^p$ 代表脑电图标记以及指令的问题部分（提示）， $t^a$ 代表指令的答案部分。设 $t^a$ 的序列长度为L， $t^a_{,<i}$ 代表当前预测token之前的答案tokens：

在这里插入图片描述

Results

Downstream datasets

在这里插入图片描述

Experimental results

在表 2、表 3 和表 4 中列出了所有结果。下划线值表示单任务方法的最佳结果，而粗体值表示 NeuroLM 的最佳结果。值得注意的是，NeuroLM 和基线单任务方法之间的直接比较并不完全公平，因为基线是在单个数据集上进行训练和测试的。尽管 NeuroLM 距离最先进的 LaBraM 仍有差距，但它的性能可与大多数其他单任务baselines相媲美，其表现与 BIOT 类似。同时参数较多的模型更容易过度拟合，这可能是 HMC 上观察到的性能下降的原因。

在这里插入图片描述

Ablation on robustness

对某些数据集（TUEV、HMC 和 TUSL）的指令设计遵循多项选择题。为了验证 NeuroLM 的鲁棒性，作者枚举了选项的顺序，并在多任务指令调优阶段的数据获取过程中从所有可能的组合中随机选择一个。NeuroLM 对任意选项顺序具有良好的鲁棒性，这表明 NeuroLM 在预测时确实理解问题的语言含义。然而shuffle 操作似乎显着降低了 TUSL 的性能，作者将这种现象归因于 TUSL 数据的缺乏。

在这里插入图片描述

Ablation on instruction data size

利用 TUAB、TUEV 和 HMC 数据集来 扩展指令数据大小 并验证 NeuroLM 和其他baseline方法的性能，因为这三个数据集具有相对大量的样本。下图结果表明 NeuroLM 非常强大，即使指令数据大小不同也能保持高性能，突显了其在多任务学习场景中的有效性。
在这里插入图片描述

Multi-channel autoregression

作者可视化了 NeuroLM 的预训练损失、准确性和验证困惑度。可以观察到损失稳定收敛，而验证困惑度随着训练而降低，这意味着 NeuroLM 可以很好地泛化到看不见的脑电图数据。直观上，具有更多参数的更大模型获得更小的损失和困惑度。
在这里插入图片描述

Ablation on multi-channel autoregressive pre-training

作者提出的多通道自回归预训练旨在通过预测每个通道的下一个 EEG token来模仿当前的因果 LLM。预计通过学习因果表示将使下游任务受益。如图 8 所示，当使用这种方法对 NeuroLM 进行预训练时，性能得到显着提升，强调了多通道自回归预训练的有效性。
在这里插入图片描述

Conclusion

本文介绍了NeuroLM——用于EEG信号处理的首个通用多任务基础模型。NeuroLM通过将EEG信号整合到大型语言模型（LLMs）框架中，利用先进的文本对齐神经tokenizer的embeddings、大规模多通道自回归预训练和联合多任务调整来应对基于EEG的脑机接口和医疗保健任务的众多任务。通过在六个不同的EEG数据集上的广泛实验，展示了模型在多任务学习和推理中的优越性能。

总体而言，NeuroLM在脑机接口和医疗保健领域是一个重要的进步，展示了大型语言模型（LLMs）在革新EEG信号处理和多任务学习方面的巨大潜力。作者相信NeuroLM将为更复杂和多功能的EEG应用铺平道路，最终增强人机交互。

Appendix

Instruction design

在这里插入图片描述

Ablation on temporal-frequency prediction

为了研究这两个域对于不同下游任务的重要性，作者通过将神经tokenizer训练中的重建目标设置为仅时域、仅频域以及时域和频域（原始 NeuroLM）来研究三种变体。通过结合这两个领域，大多数任务都实现了相似或更高的性能，这证明了神经tokenizer为语言模型挖掘紧凑的EEG表示的有效性。
在这里插入图片描述

Visualization of EEG and text embeddings

EEG embeddings在没有对齐的情况下会扩张到文本空间之外。在这种情况下，作者发现模型无法预测多任务指令调优中期望的答案，即模型将输出随机单词。在进行对齐训练时，EEG空间大部分与文本空间对齐，从而导致指令调优的预测正常，证明了EEG-文本对齐的必要性。

在这里插入图片描述

Ablation on different pre-training epochs

使用5、10、15和20个epoch的预训练模型。粗体代表最好的结果，下划线代表次好的结果。可以发现，预训练20个epoch一般能获得最优或次优的结果。 5 个 epoch 的模型在 SEED 和 HMC 上获得最佳结果，而 10 个 epoch 的模型在 Workload 上获得最佳结果。总的来说，更多epochs的预训练可以在不同的任务中取得良好的表现。

在这里插入图片描述

Discussion

Limitation：
- 尽管 NeuroLM 可以超越某些单任务基线，但它仍然落后于在每个下游数据集上进行端到端训练的最先进方法（如LaBraM和BIOT）。
- NeuroLM对超参数设置有些敏感，如果不仔细调参可能不会产生令人满意的结果。
- 由于可用的高质量EEG-文本对有限，本文仅采用EEG和语言之间的粗粒度对齐，即空间对齐，这可能给LLMs从EEG的tokens中提取有用信息带来挑战。
Outlook：
- 利用更先进的LLMs作为基础模型：本文使用的是 GPT-2（一种相对较小的 LLM），但仍然在多任务范式中取得了不错的结果。利用更新、更先进的开源 LLM，例如 LLaMA 3（Dubey 等人，2024）可能会显着增强 NeuroLM 的多任务学习能力。
- 采用混合专家方法（MOE）：考虑到EEG和语言之间的模态差距，使用特定模态的专家可以改善LLMs的多模态学习。
- 开发更细粒度的EEG-文本对齐方法：用预定义的句子描述EEG样本，并在VQ训练阶段通过添加对比学习损失来对齐EEG和文本描述，可能可以进一步提高性能。