tensorflow提取mel谱特征_语音特征小结

本文介绍了语音特征中的关键概念,包括MFCC、Bark谱、CQT、能量、短时过零率、基频、共振峰和Gabor filterbank features。这些特征在语音识别、音乐处理、噪声检测等多个领域有广泛应用。MFCC常用于ASR,Bark谱用于基频和降噪,CQT适用于音乐方向,能量和短时过零率在早期语音处理中有使用,基频在多种任务中至关重要,共振峰影响音色,而Gabor filterbank常用于语音检测和场景分类。
摘要由CSDN通过智能技术生成

73f2fe57e617b7ec1c7bccabe164bfb7.gif

在一个技术群中,聊到语音特征话题,看到一位大佬说:如果我来面试,会让求职者先讲十分钟的语音特征。看到这句话后,我一愣,如果让我讲十分钟的语音特征,我只会想到,MFCC,Bark谱,短时过零率,基频,共振峰,能量,其它也一下想不起来了。觉得自己作为一个信号出身,做语音的人,应该懂很多才行,结果也不是很在行。为此,在本文记录语音特征。


1、MFCC

MFCC,即梅尔倒谱系数(Mel-scaleFrequency Cepstral Coefficients)。是一种非线性映射,根据人耳对不同频率的声波有不同的听觉敏感度进行映射的。

原理:根据人耳听觉机理的研究发现,人耳对不同频率的声波有不同的听觉敏感度。从200HZ到5000HZ对语音的清晰度影响最大。两个响度不等的声音作用于人耳时,则响度较高的频率成分的存在会影响到对响度较低的频率成分的成分,使其变得不易察觉,这种现象称为 掩蔽效应。由于频率较低的声音在内耳蜗基底膜上行波传递的距离大于频率较高的声音,故一般来说,低音容易掩蔽高音,而高音掩蔽低音较困难。在低频处的声音掩蔽临界带宽较高频要小。所以从低频到高频这一频带内按临界带宽的大小由密到疏安排一组带通滤波器,对输入信号进行滤波。
  • 1
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值