语音信号的采集

最新推荐文章于 2024-08-18 16:49:44 发布

Holidaylovesam

最新推荐文章于 2024-08-18 16:49:44 发布

阅读量6.3k

点赞数 3

分类专栏： AI&Tensorflow 文章标签：语音识别信号的采集

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/alice_tl/article/details/97433164

版权

本文介绍了语音信号的采集来源，包括开放数据集、用户录制和TTS合成数据。讨论了采集过程中的关键指标，如采样率、采样位数、声道数、存储空间和存储格式。采样率直接影响数据精度，常见的是8k、16k和44.1k。手机平台常采用16k采样率和16位采样位数。声道数涉及声音定位，单声道和立体声是最常见形式。存储空间由比特率决定，原始音频占用较大空间，而压缩格式如MP3则节省空间但可能丢失细节，不适合语音识别。

摘要由CSDN通过智能技术生成

语音信号的采集

一般的语音来源主要是三种，业内开放的通用训练集数据、特定用户录制的数据，采用TTS技术合成的数据。

部分公司会将用户的指令数据进行收集，从而丰富通用训练集，提取高频数据集，Bad Case数据集，专项数据集（方言、中英文混合），特殊场景数据集（导航、电话、音乐等其他应用冲突的场景）等等。

在录制和采集语音数据时，业内一般有如下几个指标，这些指标也都和语音识别的原理及架构有关。

采样率

同时也叫采样频率，指每秒钟取得声音样本的次数。采样率越高，数据越精确。常用的采样率是8k(8000），16k，44.1k，48k。

8k是电话所用的采样率。人说话的声音频率，基本在这个采样率之内。

48k采样率是CD，DVD所采用的。超过这个频率人耳是分辨不出来的了。

手机平台中，采样率大都数采样16k。

采样位数

指每个采样数据占的位数&

最低0.47元/天解锁文章

关注

3
点赞
踩
18

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。