论文链接:arxiv.org/abs/2309.14030v2
一个年轻人戴着一顶镶有电极的帽子,上面布满了电线,默默地在脑海中读着一句话。过了一会儿,一个类似Siri的声音闯了进来,试图将他的想法翻译成文字,“是的,我想喝一碗鸡汤”。这是计算机将一个人的想法翻译成单词和句子的最新例子。
近日,NeurIPS收录的一项新研究引起了广泛关注。这项名为 DeWave 的研究,通过学习脑电波数据,成功地将抬头时产生的脑电图信号转换为文本。令人惊讶的是,这一过程不需要复杂的大型设备,仅需一个特制的头巾。
DeWave技术无需侵入式设备和MRI,便能读取脑电波,并将其翻译成文本。这一技术的报道来源于iFLScience,他们甚至将其称为“BrainGPT”。
尽管DeWave并非首个实现脑电波解码的技术,但它是首个实现了非侵入性、无需MRI的脑电波到文本的转换。这一突破对脑部瘫痪患者的交流提供了巨大帮助。
DeWave采用的是非侵入式方法,尽管这导致信号中噪声更强,解析难度增加,但其测试成绩相比先前的SOTA方法仍有所提升。在使用公开的ZuCo数据集进行测试时,DeWave表现出众,尤其是在脑电波信号采样频率为500Hz、包含128个信道的情况下。
DeWave在BLUE-N数据集上的成绩比传统方法提高3-18%,在ROUGE-1数据集上最高提升了6.35%。此外,研究团队对29名受试者的注意力脑电图进行了采集和解析,以评估DeWave的鲁棒性。结果表明,即使在跨主题测试中,DeWave的表现也强于传统模型,显示出更强的泛化能力。
DeWave的核心在于引入了“离散码本”概念。通过启用编码器,将连续的脑电图信号分割为离散形式,并用Transformer编码器和BART大模型对其进行训练和解析,最终得到文本信息。为了增强解码性,研究团队还对编码进行了正负样本对调节。
Wave团队一共有五名成员,全都是华人。第一作者是悉尼科技大学的Yiqun Duan,来自H(Human-centric)AI研究中心,研究方向是机器智能和脑机接口。除了DeWave,Duan此前还有一项基于扩散模型的“反向成果”——把文字转换成脑电波的工具BrainDiffusion。该研究中心主任Chin-Teng Lin教授是本文的通讯作者。同实验室的Jinzhao Zhou和Yu-Kai Wang以及悉尼大学的Zhen Wang也参与了此项目。