语音识别
1. 声音的本质是震动,震动的本质是位移关于时间的函数
Signal: s = f(t)
波形文件(.wav)中记录了不同采样时刻的位移
2. 通过傅里叶变换
可以将时间域的声音函数分解为一系列不同频率的正弦函数的叠加,通过频率谱线的特殊分布,建立音频内容和文本的对应关系,以此作为模型训练的基础。
# audio.py
import numpy as np
import numpy.fft as nf # 傅立叶变换
import scipy.io.wavfile as wf # 读取wav文件
import matplotlib.pyplot as mp
sample_rate, sigs = wf.read('../data/freq.wav')
print("scamlpe rate:", sample_rate)
print("sigs shape:", sigs.shape, "type:", sigs.dtype)
scamlpe rate: 8000
sigs shape: (3251,) type: int16
sigs = sigs / 2 ** 15 # 信息保留多
times = np.arange(len(sigs)) / sample_rate # 形成采样时间
mp.figure('Audio', dpi=120)
mp.subplot(121)
mp.title('Time Domain', fontsize=16)
mp.xlabel('Time', fontsize=12)
mp.ylabel('Signal', fontsize=12)
mp.tick_params(labelsize=10)
mp.grid(linestyle=':')
mp.plot(times, sigs, c='dodgerblue', label='Signal')
mp.legend()
freqs = nf.fftfreq(sigs.size, 1 / sample_rate) # 频率数组
ffts = nf.fft(sigs) #
pows = np.abs(ffts) # 模
mp.subplot(122)
mp.title('Frequency Domain', fontsize=16)
mp.xlabel('Frequency', fontsize=12)
mp.ylabel('Power', fontsize=12)
mp.tick_params(labelsize=10)
mp.grid(linestyle=':')
mp.plot(freqs[freqs