语音信号的采集
一般的语音来源主要是三种,业内开放的通用训练集数据、特定用户录制的数据,采用TTS技术合成的数据。
部分公司会将用户的指令数据进行收集,从而丰富通用训练集,提取高频数据集,Bad Case数据集,专项数据集(方言、中英文混合),特殊场景数据集(导航、电话、音乐等其他应用冲突的场景)等等。
在录制和采集语音数据时,业内一般有如下几个指标,这些指标也都和语音识别的原理及架构有关。
采样率
同时也叫采样频率,指每秒钟取得声音样本的次数。采样率越高,数据越精确。常用的采样率是8k(8000),16k,44.1k,48k。
8k是电话所用的采样率。人说话的声音频率,基本在这个采样率之内。
48k采样率是CD,DVD所采用的。超过这个频率人耳是分辨不出来的了。
手机平台中,采样率大都数采样16k。
采样位数
指每个采样数据占的位数&