声学特征(一) HTK抽取MFCC特征

                       

一、相关命令

  1. HCopy 抽取特征
#config: 下面的参数配置文件#scp: 源文件和目的文件在一行HCopy -C config -S scp
  
  
  • 1
  • 2
  • 3
  1. HList
    • 查看语音数据
    • 查看转化是否正常
    • 查看抽取的特征数据

二、参数配置

参数配置文件

SOURCEKIND     = WAVEFORMSOURCEFORMAT   = WAV SOURCERATE     = 625 TARGETKIND     = MFCC_D_A_E_ZTARGETRATE     = 100000.0SAVECOMPRESSED = F SAVEWITHCRC    = F WINDOWSIZE     = 250000.0USEHAMMING     = T PREEMCOEF      = 0.97NUMCHANS       = 26CEPLIFTER      = 22NUMCEPS        = 12ENORMALISE     = T USEPOWER       = F LOFREQ         = 40HIFREQ         = 7800 
  
  
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17

参数含义

  • SOURCEKIND
  • TARGETKIND
#特征种类0 WAVEFORM sampled waveform1 LPC linear prediction filter coefficients2 LPREFC linear prediction reflection coefficients3 LPCEPSTRA LPC cepstral coefficients4 LPDELCEP LPC cepstra plus delta coefficients5 IREFC LPC reflection coef in 16 bit integer format6 MFCC mel-frequency cepstral coefficients7 FBANK log mel-filter bank channel outputs8 MELSPEC linear mel-filter bank channel outputs9 USER user defined sample kind10 DISCRETE vector quantised data11 PLP PLP cepstral coefficients#后缀修饰_E 000100 has energy_N 000200 absolute energy suppressed_D 000400 has delta coefficients_A 001000 has acceleration coefficients_C 002000 is compressed_Z 004000 has zero mean static coef._K 010000 has CRC checksum_O 020000 has 0’th cepstral coef.
  
  
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 18
  • 19
  • 20
  • 21
  • 22
  • SOURCERATE
    单位为100ns,16k对应625
  • TARGETRATE
    单位为100ns,10ms对应100000
  • WINDOWSIZE
    单位为100ns,25ms对应250000
  • ZMEANSOURCE
    去除信号的直流分量
  • PREEMCOEF
    预加重信号,加重系数是k,目的就是为了消除发声过程中,声带和嘴唇造成的效应,来补偿语音信号受到发音系统所压抑的高频部分。并且能突显高频的共振峰。
    s  n =s n ks n1  sn′=sn−k∗sn−1
  • USEPOWER
    fBank特征使用功率替换幅值
  • LOFREQ HIFREQ
    默认的频率范围从0到奈奎斯特频率(采样频率的一半)
  • NUMCHANS
    fbank使用的滤波器组的个数
  • NUMCEPS
    倒谱系数的个数,对fbank的输出做DCT以后保留的倒谱个数。
  • ENORMALISE
    能量标准化,一帧的能量减去句子中的最大能量,然后加1。
           
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值