tensorflow提取mel谱特征_语音特征小结

最新推荐文章于 2023-11-20 20:12:46 发布

容玥

最新推荐文章于 2023-11-20 20:12:46 发布

阅读量1.1k

点赞数 1

文章标签： tensorflow提取mel谱特征

本文链接：https://blog.csdn.net/weixin_42300798/article/details/113627332

版权

本文介绍了语音特征中的关键概念，包括MFCC、Bark谱、CQT、能量、短时过零率、基频、共振峰和Gabor filterbank features。这些特征在语音识别、音乐处理、噪声检测等多个领域有广泛应用。MFCC常用于ASR，Bark谱用于基频和降噪，CQT适用于音乐方向，能量和短时过零率在早期语音处理中有使用，基频在多种任务中至关重要，共振峰影响音色，而Gabor filterbank常用于语音检测和场景分类。

摘要由CSDN通过智能技术生成

在一个技术群中，聊到语音特征话题，看到一位大佬说：如果我来面试，会让求职者先讲十分钟的语音特征。看到这句话后，我一愣，如果让我讲十分钟的语音特征，我只会想到，MFCC，Bark谱，短时过零率，基频，共振峰，能量，其它也一下想不起来了。觉得自己作为一个信号出身，做语音的人，应该懂很多才行，结果也不是很在行。为此，在本文记录语音特征。

1、MFCC

MFCC，即梅尔倒谱系数（Mel-scaleFrequency Cepstral Coefficients）。是一种非线性映射，根据人耳对不同频率的声波有不同的听觉敏感度进行映射的。

原理：根据人耳听觉机理的研究发现，人耳对不同频率的声波有不同的听觉敏感度。从200HZ到5000HZ对语音的清晰度影响最大。两个响度不等的声音作用于人耳时，则响度较高的频率成分的存在会影响到对响度较低的频率成分的成分，使其变得不易察觉，这种现象称为 掩蔽效应。由于频率较低的声音在内耳蜗基底膜上行波传递的距离大于频率较高的声音，故一般来说，低音容易掩蔽高音，而高音掩蔽低音较困难。在低频处的声音掩蔽临界带宽较高频要小。所以从低频到高频这一频带内按临界带宽的大小由密到疏安排一组带通滤波器，对输入信号进行滤波。

最低0.47元/天解锁文章

容玥

关注

1
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
tensorflow提取mel谱特征_语音特征小结

在一个技术群中，聊到语音特征话题，看到一位大佬说：如果我来面试，会让求职者先讲十分钟的语音特征。看到这句话后，我一愣，如果让我讲十分钟的语音特征，我只会想到，MFCC，Bark谱，短时过零率，基频，共振峰，能量，其它也一下想不起来了。觉得自己作为一个信号出身，做语音的人，应该懂很多才行，结果也不是很在行。为此，在本文记录语音特征。1、MFCCMFCC，即梅尔倒谱系数（Mel-scaleFreque...
复制链接

扫一扫