文献阅读----《病理语音的 S 变换特征及其提取方法》（笔记篇）

最新推荐文章于 2023-11-11 22:04:30 发布

谷震平

最新推荐文章于 2023-11-11 22:04:30 发布

阅读量1.7k

点赞数 3

文章标签：病理语音 S变换 Mel倒谱 MSCC特征博客

本文链接：https://blog.csdn.net/guzhenping/article/details/43742181

版权

一概要

这是一篇论文阅读的笔记资料，欢迎提出意见。本文的介绍，不可能比原作者的话还要准确、到位，所以贴一下文章摘要：

病理语音具有强烈的非平稳性和突变性特点。S变换具有良好的时频分辨率和时频定位能力。本文在S变换基础上结合人耳听觉的Mel特性,提出一种能够突出发声器官病变的病理语音特征MSCC(Mel S-Transform Cepstrum Coefficients)。在NCSC语料库上，通过与经典语音倒谱特征 MFCC和当前常用声学特征的对比，看到MSCC特征对语音中动态、快变的病理信息具有更强的刻画能力。此外，选用F-Score 方法对特征进行评价和采用粒子群方法进行特征筛选，MSCC表现出了更好的分类性能。可见，MSCC特征为病理语音的高精准分析与临床诊断提供了理论基础。

英文摘要：

Abstract:Pathological speech is non-stationary and mutation, the S transform has good time-frequency resolutionand time-frequency position capability. In this paper, S transform is combined with the human auditory Mel char-acteristics, MSCC (Mel S-Transform Cepstrum Coefficients) is proposed which highlight the vocal organs patho-logical lesions. MSCC is compared with the classical MFCC and current commonly acoustic characteristics inNCSC corpus, MSCC has a stronger ability to portray the dynamic and quickly pathological speech information.In addition, MSCC has also better classification performance by F-Score method to evaluate and particle swarmoptimization algorithm to feature selection. Therefore, MSCC provides high precision analysis for pathologicalspeech and theoretical basis in clinical diagnosis.

二文章地图

三知识点1----S变换

S变换是由 Stock Well 于 1996 年首次提出的一种时频分析方法,可以看作是短时傅里叶变换和小波变换的结合。

S变换具有了短时傅里叶变换和小波变换的优点, 能够精细化病理语音的时频结构,非常适合于病理语音的非平稳、动态、快变信号的特征量提取。

S变换的定义：

公式符号解释：

j为虚数单位
f为频率
为平移因子，控制在时间轴上的平移

时间复杂度o(N^2logN)，这个复杂度比较高~~

更多详细内容，请关注我的另一篇博文。

四知识点2----MFCC（Mel频率倒谱系数）介绍

1 Mel频率倒谱系数（Mel Frequency Cepstrum Coefficient）:缩写是MFCC，Mel频率是基于人耳听觉特性提出来的，它与Hz频率成非线性对应关系。Mel频率倒谱系数(MFCC)则是利用它们之间的这种关系，计算得到的Hz频谱特征。

2 Mel频率:是模拟人耳对不同频率语音的感知。

人类对不同频率语音有不同的感知能力：对1kHz以下，与频率成线性关系，对1kHz以上，与频率成对数关系。频率越高，感知能力就越差了。因此，在应用中常常只使用低频MFCC，而丢弃中高频MFCC。

在Mel频域内，人对音调的感知能力为线性关系，如果两段语音的Mel频率差两倍，则人在感知上也差两倍。转换公式：B(f)=1125ln(1＋f/700) 其中 f 为频率，B为Mel频率。

3 倒谱（cepstrum）：一种信号的傅里叶变换经对数运算后再进行傅里叶反变换得到的谱。同态处理的结果，分为复数和实数倒谱，常用实数倒谱，是语音识别中的重要系数。

具体过程：傅里叶变换----->对数运算----->傅里叶反变换。

倒谱和梅尔（Mel）频率倒谱的区别：梅尔频率倒谱的频带划分是在梅尔刻度上等距划分的，它比用于正常的对数倒频谱中的线性间隔的频带更能近似人类的听觉系统。

五知识点3----MSCC特征

MSCC，全称 Mel S-Transform Cepstrum Coefficients，和MFCC相比就差了一个单词，将F改成了S，用的是S变换，本质改了。【MSCC是对原有MFCC特征的改进，MFCC特征的提取是在假设声音信号短时平稳的条件下，通过对固定窗内的语音信号实施短时傅里叶变换和MEL频率分割而获得的倒谱特征。】【又一次复习了MFCC。=_=#】