语音信号的采集

本文介绍了语音信号的采集来源,包括开放数据集、用户录制和TTS合成数据。讨论了采集过程中的关键指标,如采样率、采样位数、声道数、存储空间和存储格式。采样率直接影响数据精度,常见的是8k、16k和44.1k。手机平台常采用16k采样率和16位采样位数。声道数涉及声音定位,单声道和立体声是最常见形式。存储空间由比特率决定,原始音频占用较大空间,而压缩格式如MP3则节省空间但可能丢失细节,不适合语音识别。
摘要由CSDN通过智能技术生成

语音信号的采集

一般的语音来源主要是三种,业内开放的通用训练集数据、特定用户录制的数据,采用TTS技术合成的数据。

部分公司会将用户的指令数据进行收集,从而丰富通用训练集,提取高频数据集,Bad Case数据集,专项数据集(方言、中英文混合),特殊场景数据集(导航、电话、音乐等其他应用冲突的场景)等等。

 

在录制和采集语音数据时,业内一般有如下几个指标,这些指标也都和语音识别的原理及架构有关。

采样率

同时也叫采样频率,指每秒钟取得声音样本的次数。采样率越高,数据越精确。常用的采样率是8k(8000),16k,44.1k,48k。

8k是电话所用的采样率。人说话的声音频率,基本在这个采样率之内。

48k采样率是CD,DVD所采用的。超过这个频率人耳是分辨不出来的了。

手机平台中,采样率大都数采样16k。

采样位数

指每个采样数据占的位数&

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值