用python直接调用asr技术_Python 处理 ASR（语音识别）

最新推荐文章于 2024-04-29 11:24:14 发布

weixin_39695323

最新推荐文章于 2024-04-29 11:24:14 发布

阅读量721

点赞数

文章标签：用python直接调用asr技术

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_39695323/article/details/111454460

版权

Python 处理 ASR(语音识别)

相关包：python_speech_features

这个库提供了一般的用于ASR(语音识别)的语音特征，他包含了MFCCs(梅尔倒谱系数)和 filterbank energies(滤波器组能量？)。

支持的特征：

python_speech_features.mfcc() - 梅尔倒谱系数 python_speech_features.fbank() - 滤波器组能量(？) python_speech_features.logfbank() - 对数滤波器组能量 python_speech_features.ssc() - 子带频谱质心特征使用MFCC特征：

from python_speech_features import mfcc

from python_speech_features import logfbank

import scipy.io.wavfile as wav

(rate,sig) = wav.read("file.wav")

mfcc_feat = mfcc(sig,rate)

fbank_feat = logfbank(sig,rate)

print(fbank_feat[1:3,:])

从这里你可以把特征写入一个文件

python_speech_features模块提供的函数

mfcc

python_speech_features.base.mfcc(signal, samplerate=16000, winlen=0.025, winstep=0.01, numcep=13, nfilt=26, nfft=512, lowfreq=0, highfreq=None, preemph=0.97, ceplifter=22, appendEnergy=True, winfunc=>)

计算一个音频信号的MFCC特征

参数：

signal - 需要用来计算特征的音频信号，应该是一个N*1的数组

samplerate - 我们用来工作的信号的采样率

winlen - 分析窗口的长度，按秒计，默认0.025s(25ms)

winstep - 连续窗口之间的步长，按秒计，默认0.01s(10ms)

numcep - 倒频谱返回的数量，默认13

nfilt - 滤波器组的滤波器数量，默认26

nfft - FFT的大小，默认512

lowfreq - 梅尔滤波器的最低边缘，单位赫兹，默认为0

highfreq - 梅尔滤波器的最高边缘，单位赫兹，默认为采样率/2

preemph - 应用预加重过滤器和预加重过滤器的系数，0表示没有过滤器，默认0.97

ceplifter -

最低0.47元/天解锁文章

weixin_39695323

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
用python直接调用asr技术_Python 处理 ASR（语音识别）

Python 处理 ASR(语音识别)相关包：python_speech_features这个库提供了一般的用于ASR(语音识别)的语音特征，他包含了MFCCs(梅尔倒谱系数)和 filterbank energies(滤波器组能量？)。支持的特征：python_speech_features.mfcc() - 梅尔倒谱系数 python_speech_features.fbank() - 滤波器...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。