为什么ASR的输入要使用频谱特征

语音数据的raw data 一般是波形数据,波形数据画出图来后,纵轴是信号的幅度,横轴是时间。波形图是声音信号采样来的,采样点一般会比较多。比如用16kHZ采样,那么每秒就会有16000个数据点,这个输数量太大了。因此转换为频谱,数据量会少。但是这个说法我觉得不靠谱。一段20s录音,采样点是1600020 = 320,000。将这段录音用stft进行变换,得到161个窗口,每个窗口的维度是2501,总的数据量是1612501=402,661,这个数据量不比原始的小。
还有一种说法是对于同一个字,同一个人用不同的响度说出来,波形图会不一样,不同人说同一个字的波形图也会不一样。那么这种情况对于语音识别干扰是很大的,但是,当把同一个字的不同语音转换为频谱时,频谱的分布一般是一致的。因此,使用了频谱做为输入数据。
明天把这个事情彻底搞懂再补图。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值