【语音识别】作业1：语音特征提取

最新推荐文章于 2024-07-04 15:03:08 发布

镰刀韭菜

最新推荐文章于 2024-07-04 15:03:08 发布

阅读量4.5k

点赞数 4

分类专栏：语音识别与实战文章标签：语音识别傅里叶变换时域频域 MFCC FBank

本文链接：https://blog.csdn.net/ARPOSPF/article/details/122951449

版权

语音识别与实战专栏收录该内容

14 篇文章 27 订阅 ¥19.90 ¥99.00

订阅专栏

超级会员免费看

本文详细介绍了语音识别中常用的声学特征提取方法，包括FBank、MFCC和PLP。重点分析了MFCC的采样率、帧长、帧移与特征向量的关系，以及FFT大小、Mel频率计算过程、DCT变换后的静态特征。同时，讨论了STFT系列特征与CQCC特征的区别，并解释了下采样为何需要低通滤波。此外，探讨了时域采样对频域周期性的影响。最后，提到了实战中使用librosa库进行特征提取的应用。

摘要由CSDN通过智能技术生成

语音识别原理与应用：语音特征提取（实践）

1. 采用标准的WAV头部，用代码实现PCM WAV文件的读写。
2. 完成FBank、MFCC和PLP三种声学特征提取的代码实现
3. 针对MFCC，回答以下问题：
4. 对比分析STFT系列的声学特征与CQCC特征在频谱分布上的区别
5. 如果对语音模拟信号进行采样率为16000Hz的采样，得到的离散信号中包含的最大频率是多少？
6.对一个采样率为16kHz的离散信号进行下采样，下采样到8kHz，为什么要需要首先进行低通滤波？
7.时域上的采样（离散化），导致了频域上的周期，为什么？
8.时域上的周期，导致了频域上的离散，为什么？
9. 实战
参考资料

1. 采用标准的WAV头部，用代码实现PCM WAV文件的读写。

Python标准库中的wave模块是音频WAV格式的便捷接口。该模块中的功能可以将原始格式的音频数据写入对象之类的文件，并读取WAV文件的属性。
wave 模块提供了一个处理 WAV 声音格式的便利接口。它不支持压缩/解压，但是支持单声道/立体声。
contextlib 模块包含用于处理上下文管理器和 with 语句的实用程序。

#!/usr/bin/env python
# -*- coding:utf-8 -*-
# @FileName  :read_write_pcm_wav.py
# @Time      :2022/2/15 19:25
# @Author    :PangXZ
import wave
import co