一、 数据集概述
Microsoft AEC Challenge 数据集旨在为自适应回声消除算法的开发和评估提供真实的音频数据。数据集中包含多种场景的录音,涵盖了不同的回声特性和环境噪声。这些数据集的设计为研究人员提供了丰富的资源,以测试和比较不同的 AEC 算法。
数据github地址
下载需要先安装git lfs,否则下载的wav文件为空,在mac上是:
brew install git-lfs
git lfs install
git clone https://github.com/microsoft/AEC-Challenge AEC-Challenge
1.1、文件命名约定
可用数据:
远端单声道,无回声路径改变:
GUID_farend_singletalk_lpb.wav
:远端单声道信号的录音,作为参考信号,未改变回声路径。GUID_farend_singletalk_mic.wav
:远端单声道信号的麦克风录音,捕捉用户的声音。远端单讲,回声路径改变:
GUID_farend_singletalk_with_movement_lpb.wav
:在回声路径发生变化的情况下,远端单声道信号的录音,作为参考信号。GUID_farend_singletalk_with_movement_mic.wav
:在回声路径发生变化的情况下,远端单声道信号的麦克风录音,捕捉用户的声音。近端单讲,无回声路径改变:
GUID_nearend_singletalk_lpb.wav
:空白音频。GUID_nearend_singletalk_mic.wav
:近端单声道信号的麦克风录音,捕捉用户的声音,未改变回声路径。
在安静的环境中,如果我们能够准确地获取远端参考信号和对应的近端麦克风信号,理论上可以通过线性叠加的方式来构建训练数据。实际上提供的数据集不一定都是安静环境(可能有无关语音和噪声),所以需要洗数据!把不是安静环境录制的剔除。
具体来说:在深度神经网络模型的训练过程中,尤其是在自适应回声消除任务中,输入和输出的设置可以通过以下方式进行:
输入:
- 远端参考信号:这是来自远端通话者的音频信号,通常通过扬声器播放。
- 近端麦克风信号:这是近端麦克风捕捉到的音频信号,包含了用户的声音以及由于扬声器播放而产生的回声。
具体来说: - 远端参考信号可以是:
GUID_farend_singletalk_lpb.wav
或者GUID_farend_singletalk_with_movement_lpb.wav
- 近端麦克风信号可以表示为:
GUID_farend_singletalk_lpb.wav
+GUID_nearend_singletalk_mic.wav
或者GUID_farend_singletalk_with_movement_lpb.wav
+GUID_nearend_singletalk_mic.wav
输出:
- 近端语音信号:这是用户的真实语音信号,理想情况下是没有回声的。
具体来说,输出为: GUID_nearend_singletalk_mic.wav
- 用于 RT60 估计的扫描信号:
GUID_sweep_lpb.wav
和GUID_sweep_mic.wav
:这些文件用于房间混响时间(RT60)估计的扫描信号录音。
这个数据可以用于仿真,拿纯净的语音信号加上混响仿真为近端语音信号。用GUID_farend_singletalk_lpb.wav
、GUID_farend_singletalk_with_movement_lpb.wav
加上混响和延时,仿真为麦克风采集到的回声。
无法直接用的数据:
双方对话,无回声路径改变:
GUID_doubletalk_lpb.wav
:双方对话的录音,作为参考信号,未改变回声路径。GUID_doubletalk_mic.wav
:双方对话的麦克风录音,捕捉用户的声音。双讲、回声路径改变:
GUID_doubletalk_with_movement_lpb.wav
:在回声路径发生变化的情况下,双方对话的录音,作为参考信号。GUID_doubletalk_with_movement_mic.wav
:在回声路径发生变化的情况下,双方对话的麦克风录音,捕捉用户的声音。
这里比较坑的是没有提供原始的近端语音,所以数据基本是不可用的。
这部分数据应该是自测用的,主观听下双讲效果怎么样
1.2、数据集结构
数据集的文件夹结构如下:
- real:该文件夹包含远端信号播放一次的录音,适用于单次对话场景。
- real_doubled:该文件夹包含远端信号播放两次的录音,适用于双讲场景中间有暂停的情况。
- 这些数据是在 Windows PC 上捕获的,文件名中的 “lpb” 表示 Loopback(回声)信号。尽管使用原始模式播放和捕获音频,但某些 PC 可能在发送和/或接收路径中具有音频 DSP(数字信号处理)处理,这可能会影响录音的质量和特征。