利用深度学习从大脑活动合成语言，应对人类语音挑战

最新推荐文章于 2023-08-13 00:37:41 发布

糖糖糖糖糖糖糖糖糖糖糖糖糖糖糖糖糖糖

最新推荐文章于 2023-08-13 00:37:41 发布

阅读量401

点赞数

本文链接：https://blog.csdn.net/cpongo4/article/details/89084763

版权

研究团队利用深度学习神经网络从人脑记录的电信号中合成语音，帮助人们应对语音挑战。

在三个独立的实验中，研究团队使用皮层脑电图（ECoG）来测量受试者在听别人说话或自己说话时大脑中的电脉冲。然后，这些数据被用来训练神经网络产生语音输出。这项工作的动机是创建一个脑-机接口或“语音假肢”，直接将用户大脑中的信号转换成合成语音，帮助那些不能说话的人。

第一个实验是由哥伦比亚大学的一个团队进行的，使用了癫痫患者接受治疗的数据。研究人员将电极植入患者的听觉皮层，并在患者收听简短的口语录音时从电极上收集ECoG数据。研究人员使用Keras和Tensorflow训练了一个深度神经网络（DNN），使用ECoG数据作为输入，并以录音的声码器/声谱图表示为目标。为了评估结果音频，研究人员让听众听复原数字，并报告他们听到了什么；最佳模型的精度达到75%。

由德国不来梅大学的Tanja Schultz教授领导的另一个研究小组收集了接受颅骨切除术的病人的数据。研究人员向这些患者展示了单个单词，他们大声朗读这些单词，同时记录他们的ECoG信号。语音也被记录下来并转换成声谱图。然后，他们训练了一个密集卷积网络（DenseNet），将大脑信号转换成声谱图。接下来，他们用WaveNet声码器将声谱图转换成可听语音。为了评估合成语音，研究人员使用了一种名为短时目标可懂度（STOI）的算法来测量语音质量。分数介于30%到50%之间。

最后，由加利福尼亚大学的Edward Chang领导的第三个研究小组，也使用了患者大声朗读时记录的ECoG信号数据。该团队使用了两个长短期记忆（LSTM）网络的方法。第一个学习了从大脑信号到“中间关节运动表征”的映射，该映射可以建模说话者声道的物理行为。第二个LSTM学习了从运动表征输出到实际音频的映射。这个模型使研究人员能够从记录的大脑活动中合成语言，而病人只是做出说话的动作，并没有真正发出声音。通过Amazon Mechanical Turk，研究人员让听众在听到一个合成的句子后，从多项选择的答案中选出一个来标识他们听到的句子。正确识别每句话的听众的中位数百分比是83%。

要使这项技术成为一种实用的假肢，还有很长的路要走。首先，所有的方法都使用了收集到的电极数据，这些电极被植入那些头骨被打开进行脑部手术的病人的大脑中。虽然Chang的团队确实证明了无声哑剧所产生的信号可以合成语音，但是，许多可能需要这种假肢的使用者可能无法很好地控制他们的声道，甚至无法做到这一点。

查看英文原文：Deep Learning for Speech Synthesis of Audio from Brain Activity

糖糖糖糖糖糖糖糖糖糖糖糖糖糖糖糖糖糖

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
利用深度学习从大脑活动合成语言，应对人类语音挑战

研究团队利用深度学习神经网络从人脑记录的电信号中合成语音，帮助人们应对语音挑战。在三个独立的实验中，研究团队使用皮层脑电图（ECoG）来测量受试者在听别人说话或自己说话时大脑中的电脉冲。然后，这些数据被用来训练神经网络产生语音输出。这项工作的动机是创建一个脑-机接口或“语音假肢”，直接将用户大脑中的信号转换成合成语音，帮助那些不能说话的人。第一个实验是由哥伦比亚大学的一个团队进行的，使用了癫痫患者...
复制链接

扫一扫