Code:
Data:
文章目录
Abstract
本文介绍了一个名为DeWave的大脑动态转换为自然语言的新框架。DeWave通过将离散编码序列整合到开放词汇的脑电图(EEG)到文本翻译任务中,解决了现有方法依赖眼动追踪或事件标记来分割脑动态的问题。DeWave使用量化变分编码器来推导离散编码,并将其与预训练的语言模型对齐。这种离散编码表示有两个优势:1)它通过引入文本-EEG对比对齐训练,实现了无需标记的原始波形翻译;2)它通过不变离散编码减轻了EEG的个体差异引起的干扰。DeWave模型在ZuCo数据集上的表现超过了之前的baseline,分别提高了3.06%和6.34%,达到了41.35的BLEU-1和33.71的Rouge-F分数。这项工作是首次在没有单词级顺序标记的情况下实现整个EEG信号周期的翻译。
Introduction
- Background:脑电信号解码为可理解的表示一直是研究的焦点,特别是基于非侵入性、易于记录的脑电图(EEG)信号。传统的EEG解码主要集中在有限类别的分类,如运动想象、情绪、机器人控制和游戏等特定任务。
- Motivation:当前,基于语言模型的广泛通用智能能力需求不断增加,研究人员希望探索如何将EEG与自然语言表示桥接,实现更广泛的脑-语言交流。这使得脑到文本(语音)转换成为备受关注的研究方向。
- Challenges:
- 现有的脑到文本转换依赖于 手写或眼动跟踪 等外部事件标记来分割脑信号,将任务视为小词汇集上的逐词分类,这种方法在词汇量、时间步长处理上存在局限。
- 此外,使用事件标记进行分割的顺序可能与自然语言中的词序不一致,且当前方法尚无法实现直接文本转换。
- Contributions:
- 将离散CodeBook编码引入到EEG中,并提出了一种新的框架 DeWave,用于开放词汇的EEG到文本的翻译。
- 通过利用离散编解码器,DeWave 是第一个实现原始EEG到文本翻译的工作,其中引入了自监督编码模型和基于对比学习的EEG到文本对齐来提高编码能力。
- 实验结果表明,DeWave 在 EEG 到文本的转换方面达到了 SOTA 性能。
Method
DeWave model structure
DeWave 的整体框架如图 2 所示,其中单词级或原始 EEG 特征被矢量化为离散序列embeddings。大语言模型(LLMs,这里应用BART)基于离散CodeBook的表征生成翻译输出。
- Task Definition:Word-level EEG-to-Text,Raw EEG Waves to Text
- Discrete Codex:
- Inference:对于Word-level的EEG数据,使用多个带通滤波器提取不同片段的特征;对于Raw EEG使用现成的 Wave2Vec 提取特征。然后特征被馈送到 Transformer encoders得到embeddings,然后基于VQVAE 的矢量化方法编码为 Codex。与VQVAE不同的是,DeWave不直接重建原始EEG,而是将Codex输入LLMs得到翻译文本输出。
- Learn:与直接学习EEG与文本的关系相比,DeWave 为大语言模型学习了更好的离散代码。所以总的损失定义为最大化翻译输出的对数似然和最小化CodeBook损失:
Pre-train for EEG Vectorization
DeWave模型有效的前提是,离散的Codex和大语言模型对文本的编码embeddings能较好地对齐,否则CodeBook和LLMs的输入之间的gap过大会导致DeWave训练无法收敛。
作者在这里引入预训练的方式对齐Codex和文本embeddings,同时 基于Codex重建原始EEG波形 保证Codex包含了EEG和text共有的有效信息:
- Self-Reconstruction:构建对称的Codex Decoder形成完整的VQVAE架构,目标是重建原始EEG波形,自监督损失如下:
-
Text Alignment:为了获得语义连贯的Codex,引入了一种与流行方法不同的跨模态对比学习方法(类CLIP)。假设原始特征提取器可以按有组织的时间顺序生成tokens序列,作者将 对角EEG Codex和文本 word2vec 编码对 视为序列中的正对。其他为负特征对。模型的训练目标即最小化正对之间的距离,并最大化负对之间的距离:
综上,总损失: L t o t a l = L w a v e + α L c o n t r a s t L_{total}=L_{wave}+\alpha L{contrast} Ltotal=Lwave+αLcontrast
Training Paradigm
DeWave 通过多阶段过程进行训练。
- 第一阶段:为语言模型训练适当的编码器和离散编码表CodeBook。
- 第二阶段:开放所有权重的梯度,包括语言模型BART,对整个系统进行微调。
Results
Comparison with baselines
对于原始EEG波形直接翻译文本的范式,学习一个良好的离散Codex相比baselines性能提升巨大。
Cross-Subject Performance
为了进一步说明不同受试者的性能差异,仅使用受试者 YAG 的数据来训练模型,并测试所有其他受试者的指标。结果如图 4 所示,其中雷达图表明跨被试的表现都很稳定。
Generated Samples
在表 2 中,展示了从模型没有见过的的EEG信号生成的文本的可视化示例。尽管存在想象翻译和有限的先前研究等挑战,DeWave还是产生了有意义的结果,对齐关键词并形成相似的句子结构,尽管可能还无法与传统的语言翻译任务的性能相匹配。
Ablation Study
如图 5 所示,作者发现单词尺度下 Codex 大小和模型性能之间没有很强的相关性,但在原始EEG的翻译范式下 Codex大小在2048时性能最优且随CodeBook增大性能下降明显。作者认为当前的训练数据可能不足以满足更大的CodeBook大小。
然后,Perception Time Window在200-240ms最合适。作者认为这种现象是合理的,因为人类正常的阅读速度约为每分钟160-400字。也就是说,每个单词的阅读周期平均为150-375ms,大致符合观察到的200ms-240ms之间。
最后,自监督预训练的有效性验证(表3)。对于原始EEG的直接文本翻译,自监督预训练的影响要比单词尺度的大得多。由于原始EEG解码要求模型在没有人工分割数据帮助的情况下选择有用的特征。自监督初始化可以帮助模型形成从原始EEG中提取时序或通道维度特征的初步能力。
Limitations
- DeWave方法在EEG到文本转换中的准确性仍无法达到实际应用场景中的要求,与传统语言到语言的翻译相比差距较大。
- 论文采用了teacher-forcing的评估设置,消除了累积误差,使得序列解码任务变为逐词分类,这种设置相对简单,虽然有助于评估特征提取的质量,但不完全反映实际应用的挑战。
- 实验数据仅限于公共神经阅读数据,而非直接从人脑获取的“静默语音”概念,当前使用的ZuCo数据集是通过阅读刺激收集的,未能完全实现直接思想转换的目标。本研究集中在引入Wav2Vec进行原始EEG信号特征提取,并引入离散编码作为可学习的表示,但“静默语音”任务的更好实现仍是一个未解决的科学问题,需要进一步探索。
Conclusion
本文提出了DeWave框架,用于实现开放词汇EEG到文本的翻译任务,并引入了离散编码的概念,提升了文本相关性指标(如BLEU和ROUGE)。DeWave还扩展了任务,使得无需眼动标记即可解码原始EEG信号。然而,脑解码结果的质量仍然较低,且出于公平性比较仍使用teacher-forcing设置。直接从大脑翻译思想是有价值但充满挑战的工作,未来研究将探索取消teacher-forcing的设置,并加入“神经反馈”机制以增强该领域的科学价值。
Appendix
None