【论文笔记】DeWave: Discrete Encoding of EEG Waves for EEG to Text Translation (NeurIPS 2023, spotlight)

在这里插入图片描述

Code:

Data:



Abstract

本文介绍了一个名为DeWave的大脑动态转换为自然语言的新框架。DeWave通过将离散编码序列整合到开放词汇的脑电图(EEG)到文本翻译任务中,解决了现有方法依赖眼动追踪或事件标记来分割脑动态的问题。DeWave使用量化变分编码器来推导离散编码,并将其与预训练的语言模型对齐。这种离散编码表示有两个优势:1)它通过引入文本-EEG对比对齐训练,实现了无需标记的原始波形翻译2)它通过不变离散编码减轻了EEG的个体差异引起的干扰。DeWave模型在ZuCo数据集上的表现超过了之前的baseline,分别提高了3.06%和6.34%,达到了41.35的BLEU-1和33.71的Rouge-F分数。这项工作是首次在没有单词级顺序标记的情况下实现整个EEG信号周期的翻译


Introduction

  • Background:脑电信号解码为可理解的表示一直是研究的焦点,特别是基于非侵入性、易于记录的脑电图(EEG)信号。传统的EEG解码主要集中在有限类别的分类,如运动想象、情绪、机器人控制和游戏等特定任务。
  • Motivation:当前,基于语言模型的广泛通用智能能力需求不断增加,研究人员希望探索如何将EEG与自然语言表示桥接,实现更广泛的脑-语言交流。这使得脑到文本(语音)转换成为备受关注的研究方向。
  • Challenges
    • 现有的脑到文本转换依赖于 手写或眼动跟踪 等外部事件标记来分割脑信号,将任务视为小词汇集上的逐词分类,这种方法在词汇量、时间步长处理上存在局限
    • 此外,使用事件标记进行分割的顺序可能与自然语言中的词序不一致,且当前方法尚无法实现直接文本转换
  • Contributions
    • 将离散CodeBook编码引入到EEG中,并提出了一种新的框架 DeWave,用于开放词汇的EEG到文本的翻译。
    • 通过利用离散编解码器,DeWave 是第一个实现原始EEG到文本翻译的工作,其中引入了自监督编码模型和基于对比学习的EEG到文本对齐来提高编码能力。
    • 实验结果表明,DeWave 在 EEG 到文本的转换方面达到了 SOTA 性能。

Method

DeWave model structure

在这里插入图片描述

DeWave 的整体框架如图 2 所示,其中单词级或原始 EEG 特征被矢量化为离散序列embeddings。大语言模型(LLMs,这里应用BART)基于离散CodeBook的表征生成翻译输出。

  • Task Definition:Word-level EEG-to-Text,Raw EEG Waves to Text
  • Discrete Codex
    • Inference:对于Word-level的EEG数据,使用多个带通滤波器提取不同片段的特征;对于Raw EEG使用现成的 Wave2Vec 提取特征。然后特征被馈送到 Transformer encoders得到embeddings,然后基于VQVAE 的矢量化方法编码为 Codex。与VQVAE不同的是,DeWave不直接重建原始EEG,而是将Codex输入LLMs得到翻译文本输出。
    • Learn:与直接学习EEG与文本的关系相比,DeWave 为大语言模型学习了更好的离散代码。所以总的损失定义为最大化翻译输出的对数似然和最小化CodeBook损失:

在这里插入图片描述

Pre-train for EEG Vectorization

在这里插入图片描述

DeWave模型有效的前提是,离散的Codex和大语言模型对文本的编码embeddings能较好地对齐,否则CodeBook和LLMs的输入之间的gap过大会导致DeWave训练无法收敛。

作者在这里引入预训练的方式对齐Codex和文本embeddings,同时 基于Codex重建原始EEG波形 保证Codex包含了EEG和text共有的有效信息:

  • Self-Reconstruction:构建对称的Codex Decoder形成完整的VQVAE架构,目标是重建原始EEG波形,自监督损失如下:

在这里插入图片描述

  • Text Alignment:为了获得语义连贯的Codex,引入了一种与流行方法不同的跨模态对比学习方法(类CLIP)。假设原始特征提取器可以按有组织的时间顺序生成tokens序列,作者将 对角EEG Codex和文本 word2vec 编码对 视为序列中的正对。其他为负特征对。模型的训练目标即最小化正对之间的距离,并最大化负对之间的距离:

    在这里插入图片描述

综上,总损失: L t o t a l = L w a v e + α L c o n t r a s t L_{total}=L_{wave}+\alpha L{contrast} Ltotal=Lwave+αLcontrast

Training Paradigm

DeWave 通过多阶段过程进行训练。

  • 第一阶段:为语言模型训练适当的编码器和离散编码表CodeBook。
  • 第二阶段:开放所有权重的梯度,包括语言模型BART,对整个系统进行微调。

Results

Comparison with baselines

在这里插入图片描述

对于原始EEG波形直接翻译文本的范式,学习一个良好的离散Codex相比baselines性能提升巨大。

Cross-Subject Performance

为了进一步说明不同受试者的性能差异,仅使用受试者 YAG 的数据来训练模型,并测试所有其他受试者的指标。结果如图 4 所示,其中雷达图表明跨被试的表现都很稳定。

在这里插入图片描述

Generated Samples

在表 2 中,展示了从模型没有见过的的EEG信号生成的文本的可视化示例。尽管存在想象翻译和有限的先前研究等挑战,DeWave还是产生了有意义的结果,对齐关键词并形成相似的句子结构,尽管可能还无法与传统的语言翻译任务的性能相匹配。

在这里插入图片描述

Ablation Study

在这里插入图片描述

如图 5 所示,作者发现单词尺度下 Codex 大小和模型性能之间没有很强的相关性,但在原始EEG的翻译范式下 Codex大小在2048时性能最优且随CodeBook增大性能下降明显。作者认为当前的训练数据可能不足以满足更大的CodeBook大小

然后,Perception Time Window在200-240ms最合适。作者认为这种现象是合理的,因为人类正常的阅读速度约为每分钟160-400字。也就是说,每个单词的阅读周期平均为150-375ms,大致符合观察到的200ms-240ms之间。

最后,自监督预训练的有效性验证(表3)。对于原始EEG的直接文本翻译,自监督预训练的影响要比单词尺度的大得多。由于原始EEG解码要求模型在没有人工分割数据帮助的情况下选择有用的特征。自监督初始化可以帮助模型形成从原始EEG中提取时序或通道维度特征的初步能力。

在这里插入图片描述


Limitations

  • DeWave方法在EEG到文本转换中的准确性仍无法达到实际应用场景中的要求,与传统语言到语言的翻译相比差距较大。
  • 论文采用了teacher-forcing的评估设置,消除了累积误差,使得序列解码任务变为逐词分类,这种设置相对简单,虽然有助于评估特征提取的质量,但不完全反映实际应用的挑战。
  • 实验数据仅限于公共神经阅读数据,而非直接从人脑获取的“静默语音”概念,当前使用的ZuCo数据集是通过阅读刺激收集的,未能完全实现直接思想转换的目标。本研究集中在引入Wav2Vec进行原始EEG信号特征提取,并引入离散编码作为可学习的表示,但“静默语音”任务的更好实现仍是一个未解决的科学问题,需要进一步探索。

Conclusion

本文提出了DeWave框架,用于实现开放词汇EEG到文本的翻译任务,并引入了离散编码的概念,提升了文本相关性指标(如BLEU和ROUGE)。DeWave还扩展了任务,使得无需眼动标记即可解码原始EEG信号。然而,脑解码结果的质量仍然较低,且出于公平性比较仍使用teacher-forcing设置。直接从大脑翻译思想是有价值但充满挑战的工作,未来研究将探索取消teacher-forcing的设置,并加入“神经反馈”机制以增强该领域的科学价值。


Appendix

None


创作不易,麻烦点点赞和关注咯!

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值