文献阅读----《病理语音的 S 变换特征及其提取方法》(笔记篇)

一 概要



       这是一篇论文阅读的笔记资料,欢迎提出意见。本文的介绍,不可能比原作者的话还要准确、到位,所以贴一下文章摘要

       病理语音具有强烈的非平稳性和突变性特点。S变换具有良好的时频分辨率和时频定位能力。本文在S变换基础上结合人耳听觉的Mel特性,提出一种能够突出发声器官病变的病理语音特征MSCC(Mel S-Transform Cepstrum Coefficients)。在NCSC语料库上,通过与经典语音倒谱特征 MFCC和当前常用声学特征的对比,看到MSCC特征对语音中动态、快变的病理信息具有更强的刻画能力。此外,选用F-Score 方法对特征进行评价和采用粒子群方法进行特征筛选,MSCC表现出了更好的分类性能。可见,MSCC特征为病理语音的高精准分析与临床诊断提供了理论基

      英文摘要:

     Abstract:Pathological speech is non-stationary and mutation, the S transform has good time-frequency resolutionand time-frequency position capability. In this paper, S transform is combined with the human auditory Mel char-acteristics, MSCC (Mel S-Transform Cepstrum Coefficients) is proposed which highlight the vocal organs patho-logical lesions. MSCC is compared with the classical MFCC and current commonly acoustic characteristics inNCSC corpus, MSCC has a stronger ability to portray the dynamic and quickly pathological speech information.In addition, MSCC has also better classification performance by F-Score method to evaluate and particle swarmoptimization algorithm to feature selection. Therefore, MSCC provides high precision analysis for pathologicalspeech and theoretical basis in clinical diagnosis.





二 文章地图







三 知识点1----S变换



       S变换是由 Stock Well 于 1996 年首次提出的一 种时频分析方法,可以看作是短时傅里叶变换和小波变换的结合。

      S变换具有了短时傅里叶变换小波变换的优点, 能够精细化病理语音的时频结构,非常适合于病理语音的非平稳、动态、快变信号的特征量提取。

      S变换的定义

                

      公式符号解释:

  • j为虚数单位
  • f为频率
  • 为平移因子控制在时间轴上的平移

      时间复杂度o(N^2logN),这个复杂度比较高~~

        更多详细内容,请关注我的另一篇博文。



四 知识点2----MFCC(Mel频率倒谱系数)介绍



       1 Mel频率倒谱系数(Mel Frequency Cepstrum Coefficient):缩写是MFCC,Mel频率是基于人耳听觉特性提出来的,它与Hz频率成非线性对应关系。Mel频率倒谱系数(MFCC)则是利用它们之间的这种关系,计算得到的Hz频谱特征。


       2 Mel频率:是模拟人耳对不同频率语音的感知。

      人类对不同频率语音有不同的感知能力:对1kHz以下,与频率成线性关系,对1kHz以上,与频率成对数关系。频率越高,感知能力就越差了。因此,在应用中常常只使用低频MFCC,而丢弃中高频MFCC。

      在Mel频域内,人对音调的感知能力为线性关系,如果两段语音的Mel频率差两倍,则人在感知上也差两倍。 转换公式:B(f)=1125ln(1+f/700) 其中 f 为频率,B为Mel频率。


      3 倒谱(cepstrum):一种信号的傅里叶变换经对数运算后再进行傅里叶反变换得到的谱。同态处理的结果,分为复数和实数倒谱,常用实数倒谱,是语音识别中的重要系数。

      具体过程:傅里叶变换----->对数运算----->傅里叶反变换。

   

      倒谱和梅尔(Mel)频率倒谱的区别:梅尔频率倒谱的频带划分是在梅尔刻度上等距划分的,它比用于正常的对数倒频谱中的线性间隔的频带更能近似人类的听觉系统。




五 知识点3----MSCC特征



       MSCC,全称 Mel S-Transform Cepstrum Coefficients,和MFCC相比就差了一个单词,将F改成了S,用的是S变换,本质改了。【MSCC是对原有MFCC特征的改进MFCC特征的提取是在假设声音信号短时平稳的条件下通过对固定窗内的语音信号实施短时傅里叶变换和MEL频率分割而获得的倒谱特征。】【又一次复习了MFCC=_=#

      优势:MSCC 特征能很好地表征音频信号的动态特性,尤其是病理改变特征。




六 算法----基于S变换的MSCC特征提取算法


提取算法的步骤:

      1)确定输入为:采样时间序列x[n],帧长FrameLen,输出为:MSCC特征C1,C2······CL

      2)分帧:x[n]FrameLen进行分帧

      3)S变换:对分帧后的时间序列按式(5),(6)进行S变换,得到S变换矩阵S

      4)求能量谱:对S矩阵各个元素求模,得到S模矩阵|S|,其对应于频谱,并对频谱求平方,得到能量谱

      5)带通滤波:构造由M个三角滤波器构成的滤波器组,在这里M26个,滤波器组覆盖从0 Hz到采样率的二分之一,中心频率f(m)Mel尺度上是等间距分隔的,f(m)的定义如下:

            

公式符号解释:

  • f波器的频率应用范围的最低频率
  • fh滤波器的频率应用范围最高频率
  • NS变换的点数,
  • Fs采样频率


的反函数。定义如下:
              


三角滤波器的频率响应定义为:

              


计算每一时刻每个滤波器组输出的对数能量为:

             

公式符号解释:

  • S[h,k]为语音信号经S变换后时刻的频谱
  • 时刻第m个滤波器的输出


      6)离散余弦变换(DCT):按下式将其映射到倒谱域,求得LMSCC系数



    至此,MSCC特征就被提取出来了。





参考资料:

1 倒谱系数相关:http://www.cnblogs.com/gogly/archive/2013/11/24/3440441.html
2 引用《病理语音的 S 变换特征及其提取方法》


内容来自:谷震平的博客,希望尊重版权,尊重原创。

链接:http://blog.csdn.net/guzhenping




评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值