为什么ASR的输入要使用频谱特征

最新推荐文章于 2024-04-28 19:30:27 发布

ilove_Moretz

最新推荐文章于 2024-04-28 19:30:27 发布

阅读量347

点赞数

分类专栏：语音识别文章标签：语音识别人工智能机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/ilove_Moretz/article/details/106673305

版权

语音识别专栏收录该内容

5 篇文章 0 订阅

订阅专栏

语音数据的raw data 一般是波形数据，波形数据画出图来后，纵轴是信号的幅度，横轴是时间。波形图是声音信号采样来的，采样点一般会比较多。比如用16kHZ采样，那么每秒就会有16000个数据点，这个输数量太大了。因此转换为频谱，数据量会少。但是这个说法我觉得不靠谱。一段20s录音，采样点是1600020 = 320,000。将这段录音用stft进行变换，得到161个窗口，每个窗口的维度是2501，总的数据量是1612501=402,661，这个数据量不比原始的小。
还有一种说法是对于同一个字，同一个人用不同的响度说出来，波形图会不一样，不同人说同一个字的波形图也会不一样。那么这种情况对于语音识别干扰是很大的，但是，当把同一个字的不同语音转换为频谱时，频谱的分布一般是一致的。因此，使用了频谱做为输入数据。
明天把这个事情彻底搞懂再补图。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
为什么ASR的输入要使用频谱特征

语音数据的raw data 一般是波形数据，波形数据画出图来后，纵轴是信号的幅度，横轴是时间。波形图是声音信号采样来的，采样点一般会比较多。比如用16kHZ采样，那么每秒就会有16000个数据点，这个输数量太大了。因此转换为频谱，数据量会少。但是这个说法我觉得不靠谱。一段20s录音，采样点是1600020 = 320,000。将这段录音用stft进行变换，得到161个窗口，每个窗口的维度是2501，总的数据量是1612501=402,661，这个数据量不比原始的小。还有一种说法是对于同一个字，同一个人用不
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。