【论文笔记】DeWave: Discrete Encoding of EEG Waves for EEG to Text Translation (NeurIPS 2023, spotlight)

Jurio.21

已于 2024-11-27 18:59:43 修改

阅读量1.4k

点赞数 19

分类专栏： Deep learning BCI 论文笔记文章标签：论文阅读深度学习语言模型自然语言处理 transformer 数据挖掘人工智能

于 2024-11-25 20:25:41 首次发布

本文链接：https://blog.csdn.net/qq_43811536/article/details/144038825

版权

Deep learning 同时被 3 个专栏收录

25 篇文章

订阅专栏

BCI

20 篇文章

订阅专栏

论文笔记

16 篇文章

订阅专栏

在这里插入图片描述

Code:

https://github.com/duanyiqun/DeWave
https://github.com/MikeWangWZHL/EEG-To-Text

Data:

https://osf.io/q3zws/files/osfstorage
https://osf.io/2urht/files/osfstorage

文章目录

Abstract

本文介绍了一个名为DeWave的大脑动态转换为自然语言的新框架。DeWave通过将离散编码序列整合到开放词汇的脑电图（EEG）到文本翻译任务中，解决了现有方法依赖眼动追踪或事件标记来分割脑动态的问题。DeWave使用量化变分编码器来推导离散编码，并将其与预训练的语言模型对齐。这种离散编码表示有两个优势：1）它通过引入文本-EEG对比对齐训练，实现了无需标记的原始波形翻译；2）它通过不变离散编码减轻了EEG的个体差异引起的干扰。DeWave模型在ZuCo数据集上的表现超过了之前的baseline，分别提高了3.06%和6.34%，达到了41.35的BLEU-1和33.71的Rouge-F分数。这项工作是首次在没有单词级顺序标记的情况下实现整个EEG信号周期的翻译。

Introduction

Background：脑电信号解码为可理解的表示一直是研究的焦点，特别是基于非侵入性、易于记录的脑电图（EEG）信号。传统的EEG解码主要集中在有限类别的分类，如运动想象、情绪、机器人控制和游戏等特定任务。
Motivation：当前，基于语言模型的广泛通用智能能力需求不断增加，研究人员希望探索如何将EEG与自然语言表示桥接，实现更广泛的脑-语言交流。这使得脑到文本（语音）转换成为备受关注的研究方向。
Challenges：
- 现有的脑到文本转换依赖于 手写或眼动跟踪 等外部事件标记来分割脑信号，将任务视为小词汇集上的逐词分类，这种方法在词汇量、时间步长处理上存在局限。
- 此外，使用事件标记进行分割的顺序可能与自然语言中的词序不一致，且当前方法尚无法实现直接文本转换。
Contributions：
- 将离散CodeBook编码引入到EEG中，并提出了一种新的框架 DeWave，用于开放词汇的EEG到文本的翻译。
- 通过利用离散编解码器，DeWave 是第一个实现原始EEG到文本翻译的工作，其中引入了自监督编码模型和基于对比学习的EEG到文本对齐来提高编码能力。
- 实验结果表明，DeWave 在 EEG 到文本的转换方面达到了 SOTA 性能。

Method

DeWave model structure

在这里插入图片描述

DeWave 的整体框架如图 2 所示，其中单词级或原始 EEG 特征被矢量化为离散序列embeddings。大语言模型（LLMs，这里应用BART）基于离散CodeBook的表征生成翻译输出。

Task Definition：Word-level EEG-to-Text，Raw EEG Waves to Text
Discrete Codex：
- Inference：对于Word-level的EEG数据，使用多个带通滤波器提取不同片段的特征；对于Raw EEG使用现成的 Wave2Vec 提取特征。然后特征被馈送到 Transformer encoders得到embeddings，然后基于VQVAE 的矢量化方法编码为 Codex。与VQVAE不同的是，DeWave不直接重建原始EEG，而是将Codex输入LLMs得到翻译文本输出。
- Learn：与直接学习EEG与文本的关系相比，DeWave 为大语言模型学习了更好的离散代码。所以总的损失定义为最大化翻译输出的对数似然和最小化CodeBook损失：

在这里插入图片描述

Pre-train for EEG Vectorization

在这里插入图片描述

DeWave模型有效的前提是，离散的Codex和大语言模型对文本的编码embeddings能较好地对齐，否则CodeBook和LLMs的输入之间的gap过大会导致DeWave训练无法收敛。

作者在这里引入预训练的方式对齐Codex和文本embeddings，同时 基于Codex重建原始EEG波形 保证Codex包含了EEG和text共有的有效信息：

Self-Reconstruction：构建对称的Codex Decoder形成完整的VQVAE架构，目标是重建原始EEG波形，自监督损失如下：

在这里插入图片描述

Text Alignment：为了获得语义连贯的Codex，引入了一种与流行方法不同的跨模态对比学习方法（类CLIP）。假设原始特征提取器可以按有组织的时间顺序生成tokens序列，作者将 对角EEG Codex和文本 word2vec 编码对 视为序列中的正对。其他为负特征对。模型的训练目标即最小化正对之间的距离，并最大化负对之间的距离：

综上，总损失： $L_{total}=L_{wave}+\alpha L{contrast}$

Training Paradigm

DeWave 通过多阶段过程进行训练。

第一阶段：为语言模型训练适当的编码器和离散编码表CodeBook。
第二阶段：开放所有权重的梯度，包括语言模型BART，对整个系统进行微调。

Results

Comparison with baselines

在这里插入图片描述

对于原始EEG波形直接翻译文本的范式，学习一个良好的离散Codex相比baselines性能提升巨大。

Cross-Subject Performance

为了进一步说明不同受试者的性能差异，仅使用受试者 YAG 的数据来训练模型，并测试所有其他受试者的指标。结果如图 4 所示，其中雷达图表明跨被试的表现都很稳定。

在这里插入图片描述

Generated Samples

在表 2 中，展示了从模型没有见过的的EEG信号生成的文本的可视化示例。尽管存在想象翻译和有限的先前研究等挑战，DeWave还是产生了有意义的结果，对齐关键词并形成相似的句子结构，尽管可能还无法与传统的语言翻译任务的性能相匹配。

在这里插入图片描述

Ablation Study

在这里插入图片描述

如图 5 所示，作者发现单词尺度下 Codex 大小和模型性能之间没有很强的相关性，但在原始EEG的翻译范式下 Codex大小在2048时性能最优且随CodeBook增大性能下降明显。作者认为当前的训练数据可能不足以满足更大的CodeBook大小。

然后，Perception Time Window在200-240ms最合适。作者认为这种现象是合理的，因为人类正常的阅读速度约为每分钟160-400字。也就是说，每个单词的阅读周期平均为150-375ms，大致符合观察到的200ms-240ms之间。

最后，自监督预训练的有效性验证（表3）。对于原始EEG的直接文本翻译，自监督预训练的影响要比单词尺度的大得多。由于原始EEG解码要求模型在没有人工分割数据帮助的情况下选择有用的特征。自监督初始化可以帮助模型形成从原始EEG中提取时序或通道维度特征的初步能力。

在这里插入图片描述

Limitations

DeWave方法在EEG到文本转换中的准确性仍无法达到实际应用场景中的要求，与传统语言到语言的翻译相比差距较大。
论文采用了teacher-forcing的评估设置，消除了累积误差，使得序列解码任务变为逐词分类，这种设置相对简单，虽然有助于评估特征提取的质量，但不完全反映实际应用的挑战。
实验数据仅限于公共神经阅读数据，而非直接从人脑获取的“静默语音”概念，当前使用的ZuCo数据集是通过阅读刺激收集的，未能完全实现直接思想转换的目标。本研究集中在引入Wav2Vec进行原始EEG信号特征提取，并引入离散编码作为可学习的表示，但“静默语音”任务的更好实现仍是一个未解决的科学问题，需要进一步探索。

Conclusion

本文提出了DeWave框架，用于实现开放词汇EEG到文本的翻译任务，并引入了离散编码的概念，提升了文本相关性指标（如BLEU和ROUGE）。DeWave还扩展了任务，使得无需眼动标记即可解码原始EEG信号。然而，脑解码结果的质量仍然较低，且出于公平性比较仍使用teacher-forcing设置。直接从大脑翻译思想是有价值但充满挑战的工作，未来研究将探索取消teacher-forcing的设置，并加入“神经反馈”机制以增强该领域的科学价值。