语音识别SpeechRecognition

最新推荐文章于 2024-01-25 01:54:08 发布

haoen110

最新推荐文章于 2024-01-25 01:54:08 发布

阅读量6.5k

点赞数 1

分类专栏：数据科学和机器学习 Python

本文链接：https://blog.csdn.net/haoen110/article/details/92769444

版权

本文探讨了语音识别技术，首先解释声音本质上是时间的位移函数，接着介绍傅里叶变换在声音分析中的作用，然后重点讲解梅尔频率倒谱系数（MFCC）如何作为语音特征。通过这些基础，进一步讨论了语音识别和声音合成的基本概念。

摘要由CSDN通过智能技术生成

语音识别

1. 声音的本质是震动，震动的本质是位移关于时间的函数

Signal: s = f(t)

波形文件(.wav)中记录了不同采样时刻的位移

2. 通过傅里叶变换

可以将时间域的声音函数分解为一系列不同频率的正弦函数的叠加，通过频率谱线的特殊分布，建立音频内容和文本的对应关系，以此作为模型训练的基础。

# audio.py
import numpy as np
import numpy.fft as nf  # 傅立叶变换
import scipy.io.wavfile as wf  # 读取wav文件
import matplotlib.pyplot as mp


sample_rate, sigs = wf.read('../data/freq.wav')
print("scamlpe rate:", sample_rate)
print("sigs shape:", sigs.shape, "type:", sigs.dtype)

scamlpe rate: 8000
sigs shape: (3251,) type: int16

sigs = sigs / 2 ** 15  # 信息保留多
times = np.arange(len(sigs)) / sample_rate  # 形成采样时间

mp.figure('Audio', dpi=120)

mp.subplot(121)
mp.title('Time Domain', fontsize=16)
mp.xlabel('Time', fontsize=12)
mp.ylabel('Signal', fontsize=12)
mp.tick_params(labelsize=10)
mp.grid(linestyle=':')
mp.plot(times, sigs, c='dodgerblue', label='Signal')
mp.legend()

freqs = nf.fftfreq(sigs.size, 1 / sample_rate)  # 频率数组
ffts = nf.fft(sigs)  # 
pows = np.abs(ffts)  # 模

mp.subplot(122)
mp.title('Frequency Domain', fontsize=16)
mp.xlabel('Frequency', fontsize=12)
mp.ylabel('Power', fontsize=12)
mp.tick_params(labelsize=10)
mp.grid(linestyle=':')
mp.plot(freqs

最低0.47元/天解锁文章

haoen110

关注

1
点赞
踩
20

收藏

觉得还不错? 一键收藏
0
评论
语音识别SpeechRecognition

语音识别1. 声音的本质是震动，震动的本质是位移关于时间的函数Signal: s = f(t)波形文件(.wav)中记录了不同采样时刻的位移2. 通过傅里叶变换可以将时间域的声音函数分解为一系列不同频率的正弦函数的叠加，通过频率谱线的特殊分布，建立音频内容和文本的对应关系，以此作为模型训练的基础。# audio.pyimport numpy as npimport numpy.ff...
复制链接

扫一扫

专栏目录