上半年做了一些有关语音识别的工作,整理一下实践过程中容易被忽视的小tricks,以免忘记。本文是在Torch上使用了Baidu的DeepSpeech 2语音识别模型进行的实验。
1. 根据语音数据的格式(如***.wav,单声道等属性),在“MakeLMDB.lua”中将参数进行修改,(将sph格式改为wav,声道数设为1等)
2. 由于自己准备的数据的采样频率sampleRate与预设的16kHz可能不同,需要注意在“predict.lua”文件中修改该参数&
上半年做了一些有关语音识别的工作,整理一下实践过程中容易被忽视的小tricks,以免忘记。本文是在Torch上使用了Baidu的DeepSpeech 2语音识别模型进行的实验。
1. 根据语音数据的格式(如***.wav,单声道等属性),在“MakeLMDB.lua”中将参数进行修改,(将sph格式改为wav,声道数设为1等)
2. 由于自己准备的数据的采样频率sampleRate与预设的16kHz可能不同,需要注意在“predict.lua”文件中修改该参数&