用python直接调用asr技术_Python 处理 ASR(语音识别)

Python 处理 ASR(语音识别)

相关包:python_speech_features

这个库提供了一般的用于ASR(语音识别)的语音特征,他包含了MFCCs(梅尔倒谱系数)和 filterbank energies(滤波器组能量?)。

支持的特征:

python_speech_features.mfcc() - 梅尔倒谱系数 python_speech_features.fbank() - 滤波器组能量(?) python_speech_features.logfbank() - 对数滤波器组能量 python_speech_features.ssc() - 子带频谱质心特征 使用MFCC特征:

from python_speech_features import mfcc

from python_speech_features import logfbank

import scipy.io.wavfile as wav

(rate,sig) = wav.read("file.wav")

mfcc_feat = mfcc(sig,rate)

fbank_feat = logfbank(sig,rate)

print(fbank_feat[1:3,:])

从这里你可以把特征写入一个文件

python_speech_features模块提供的函数

mfcc

python_speech_features.base.mfcc(signal, samplerate=16000, winlen=0.025, winstep=0.01, numcep=13, nfilt=26, nfft=512, lowfreq=0, highfreq=None, preemph=0.97, ceplifter=22, appendEnergy=True, winfunc=>)

计算一个音频信号的MFCC特征

参数:

signal - 需要用来计算特征的音频信号,应该是一个N*1的数组

samplerate - 我们用来工作的信号的采样率

winlen - 分析窗口的长度,按秒计,默认0.025s(25ms)

winstep - 连续窗口之间的步长,按秒计,默认0.01s(10ms)

numcep - 倒频谱返回的数量,默认13

nfilt - 滤波器组的滤波器数量,默认26

nfft - FFT的大小,默认512

lowfreq - 梅尔滤波器的最低边缘,单位赫兹,默认为0

highfreq - 梅尔滤波器的最高边缘,单位赫兹,默认为采样率/2

preemph - 应用预加重过滤器和预加重过滤器的系数,0表示没有过滤器,默认0.97

ceplifter -

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值