Python语音识别API总结

最新推荐文章于 2024-05-06 17:09:18 发布

ghcjasongo

最新推荐文章于 2024-05-06 17:09:18 发布

阅读量1.1k

点赞数 3

分类专栏：学习笔记汇总文章标签： Python 语音识别

本文链接：https://blog.csdn.net/a18612039484/article/details/100137791

版权

语音识别相关API

语音识别关键概念：声音的本质是震动,震动的本质是位移关于时间的函数,波形文件(.wav)中记录了不同采样时刻的位移。
通过傅里叶变换,可以将时间域的声音函数分解为一系列不同频率的正弦函数的叠加,通过频率谱线的特殊分布,建立音频内容和文本的对应关系,以此作为模型训练的基础。

梅尔频率倒谱系数（mfcc）

主要思想：提取13个特征，生成梅尔频率倒谱系数矩阵。
API：

import scipy.io.wavfile as wf
import python_speech_features as sf

# 提取采样率，特征
sample_rate,sigs = wf.read('xxx.wav')
# 生成mfcc矩阵
mfcc = sf.mfcc(sigs,sample_rate)

声音合成

案例：

import json
import numpy as np
import scipy.io.wavfile as wf
# 读取存有音频信息的json文件
with open('../data/12.json', 'r') as f:
    freqs = json.loads(f.read())

tones = [
('G5', 1.5),
(

最低0.47元/天解锁文章

ghcjasongo

关注

3
点赞
踩
10

收藏

觉得还不错? 一键收藏
0
评论
Python语音识别API总结

目录语音识别相关API梅尔频率倒谱系数（mfcc）声音合成语音识别语音识别相关API语音识别关键概念：声音的本质是震动,震动的本质是位移关于时间的函数,波形文件(.wav)中记录了不同采样时刻的位移。通过傅里叶变换,可以将时间域的声音函数分解为一系列不同频率的正弦函数的叠加,通过频率谱线的特殊分布,建立音频内容和文本的对应关系,以此作为模型训练的基础。梅尔频率倒谱系数（mfcc）主要思想...
复制链接

扫一扫

专栏目录