《现代语音信号处理》(胡航著)第1-6章简介

最新推荐文章于 2020-08-15 16:32:41 发布

flybirding10011

最新推荐文章于 2020-08-15 16:32:41 发布

阅读量398

点赞数

版权所有©️都是我自己写哒！

本文链接：https://blog.csdn.net/cpongo1/article/details/100993833

版权

根据《现代语音信号处理》（胡航版）总大概列出前六章的内容，有些会有一些自己的理解和总结。

第一章绪论

发展史和主要研究内容及发展。

第二章语音信号处理的基础知识：

语音信号处理的基础知识
语音的产生过程
- 语音信号的特性：音质、音调、音强、音长
- 汉语的特点（21个声母、39个韵母）
- 语音信号的统计特性
语音产生的线性模型
语音产生的非线性模型
- FM-AM模型
- Teager能量算子
- 能量分离算法
- FM-AM模型应用
语音感知
- 听觉系统（内耳、中耳、外耳；人可感知的频率范围：20-20KHZ，强度范围：-5-130dB）
- 神经系统
- 语音感知（人类能够感知语音的四要素：响度、音调、音色、听觉掩蔽效应）

第三章时域分析

简介
- 语音信号非平稳、事变、离散性大，且其中蕴含着说话内容以及说话人特征等，处理难度大。
- 时域分析具有简单、运算量小、物理意义明确等优点。
数字化和预处理
- 取样率和量化字长选择
- 预处理（数字化、放大及增益控制、反混叠滤波、预加重）
短时能量分析（En表示为语音信号一个短时间段内的能量，短时平均能量能反映语音能量随时间变化的特性，用于区分清/浊音等）
短时过零分析（短时平均过零数能用于度量信号的频率，粗略地描述了信号频谱特性，可用于区别清/浊音；高频率意味高平均过零数，低频率意味着低平均过零数）
短时相关分析
- 分为互相关函数、自相关函数；主要是自相关，用于研究信号本省，如波形同步性和周期性
- 短时自相关函数
- 修正短时自相关函数（解决基音周期宽，是窗和预期的基音周期相适应）
- 短时平均复查函数（避免乘法，简化运算，与自相关函数有类似的作用）
语音端点检测（用于有/无声或是浊/清/无声判定）
- 双门限前端检测（存在较大时延）
- 多门限过零率前端检测（解决方法1的缺陷）
- 基于FM-AM模型的端点检测（利用算子输出能量进行端点检测，相比常规的基于短时能量的端点检测方法有较好的效果）
基于高阶累积量的语音端点检测
- 噪声环境下的端点检测（目前提出的方法只适用于不同适用环境）
- 高阶累积量和高阶谱
- 基于高阶累积量的端点检测（广泛应用于非高斯及非循环平稳信号中；核心：任何类型的高斯信号，其三阶以上的高阶累积量均为0 ）

第四章短时傅里叶变换

短时傅里叶变换（短时傅里叶变换是窗选语音信号的傅里叶变换，Xn(ejw) ）
短时傅里叶变换的取样率（针对避免混叠；三种取样率：时间取样率、频域取样率、综合取样率）
语音信号的短时综合（用于由Xn(ejw)恢复x(n)的问题；两种方法，滤波器组求和法与FFT求和法存在对偶性）
- 滤波器组求和法（与频率取样有关；性能较好，因为其对噪声敏感性较小）
- FFT求和法（与时间取样有关）
语谱图（显示大量与语句特性相关的信息，综合了频谱图与时域波形的优点，直观显示语音频谱随时间变化的情况，是一种动态的频谱）

第五章倒谱分析和同态滤波

同态信号处理（可实现将卷积关系变成求和关系的分离处理，以达到解卷的效果；用于非加性组合信号，其中有包括乘性和卷积性组合信号）
同态信号处理的基本原理，分三步
- 特征系统（将卷积信号转化为加性信号；一分三步：Z变换，对数运算，逆Z变换）
- 线型系统
- 逆特征系统（将加性信号转化为卷积信号；一分三步：Z变换，指数运算，逆Z变换）
复倒谱和倒谱
- 复倒谱（输入信号进行特征系统后得到的时域信号，成为输入信号的复倒谱，对应倒谱域）
- 倒谱（相对于复倒谱来说，取对数阶段，只取幅度的对数，除去相位的信息；倒谱运算相对简单，由于不含相位信息，不能恢复原始性）
语音信号两个卷积分量复倒谱的性质
- 声门激励信号（较重要的性质：可用高复倒谱窗在复倒谱域中提取浊音激励信号的特性）
- 声道冲激响应序列（较重要的性质：可用低复倒谱窗在复倒谱域中提取声道冲激响应）
避免相位卷绕的算法
- 相位卷绕：复倒谱取对数是进行的是复对数运算，此时存在相位多只问题，称其为相位卷绕。
- 避免的方法（微分法(不适用，会产生频谱混叠)，最小相位信号法，递推法(x(0)不能过小)）
语音信号复倒谱分析实例
Mel频率倒谱系数（MFCC；应用于语音识别和说话人识别）
- Mel频率滤波器组（基于人耳在1KHZ以下为频率的线性尺度，1KHZ以上为对数尺度，是人二对低频信号比高频信号更敏感的特点）
- MFCC（重要特点：对频率轴不均匀的划分；该参数常用于语音识别中，可进行端点检测）
- 计算过程：
  - 对信号分帧，预加重，hamming窗处理，STFT 得到频谱
  - 使信号的线性幅度谱通过L个通道的Mel滤波器组并对输出累加
  - 对滤波器输出取对数，在进行DCT（离散余弦变换），得到MFCC

第六章线性预测分析

LPC的基本思想：一个语音的取样可用过去若干语音取样的线性组合来逼近。通过使实际语音取样与LPC取样间差值的平方和，即进行LMS（最小均方误差）逼近，可决定唯一的一组预测系数，而它们就是线性组合中的加权系数。
线性预测的基本原理（基于AR模型，用一个模型表示被分析信号）
线性预测方程的建立（因为信号模型的建立是有信号估计模型参数的过程，信号是客观存在由一个有限数目参数的模型进行表示的，不可能完全准确，总会存在误差，因而求解LPC系数是一个逼近的过程，采用逆滤波器法来逼近）
线性预测分析的解法（1）——经典解法
- 自相关法（这种解法在整个时间范围内使误差最小；加窗处理；高效求解、精度低、会引入误差，能保证解的稳定性，适合硬件实现）
- 协方差法（这种解法可使信号N个样本上的误差最小；不加窗处理；精度高、不能保证解的稳定性，适用于平稳信号，存在对中间量比例运算的困难）
线性预测分析的解法（2）——格型法（解决自相关与协方差法的精度与稳定性存在矛盾的问题），求解方法：
- 正向格型法（逼近原则：正向均方差；不能保证解的稳定性）
- 反向格型法（逼近原则：正向均方差；不能保证解的稳定性）
- 几何平均法（非逼近法；通过正向格型法Ki与反向格型法Ki 的几何平均求解；能保证解的稳定性）
- Burg法（非逼近法；通过正向和反向均方误差纸盒的最小求解；能保证解的稳定性）
- 协方差格型法（非逼近法；针对原格型法减小其运算量，改写B\C\E的表达式改进格型法求解；保持格型法的灵活性、解的稳定性和精度，运算量与自相关法相近）
线性预测应用——LPC谱估计和LPC倒谱
- 谱估计
- LPC复倒谱
- LPC估计与其他谱分析方法的比较
线谱对（LSP）分析（频域参数；既有良好的量化和插值特性；以AR模型为基础）
极零点模型（为了获取更精确的解且节省运算量；存在解法困难，难以保证收敛于最佳值，且难以确定模型阶数）

第七章语音信号的非线性分析

小波变换

flybirding10011

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
0
评论
《现代语音信号处理》(胡航著)第1-6章简介

根据《现代语音信号处理》（胡航版）总大概列出前六章的内容，有些会有一些自己的理解和总结。第一章绪论发展史和主要研究内容及发展。第二章语音信号处理的基础知识：语音信号处理的基础知识语音的产生过程语音信号的特性：音质、音调、音强、音长汉语的特点（21个声母、39个韵母）语音信号的统计特性...
复制链接

扫一扫

flybirding10011

CSDN认证博客专家 CSDN认证企业博客

码龄10年

3335: 原创

-: 周排名

156万+: 总排名

370万+: 访问

: 等级

7万+: 积分

1万+: 粉丝

2623: 获赞

1769: 评论

5751: 收藏

私信

关注

热门文章

分类专栏

最新评论

DNN、CNN、RNN、LSTM的区别
Barrettt:
安卓逆向入门之frida框架简单使用
cjl_751013: 太简单了
呵呵
小测试_CCC: <dependency> <groupId>org.springframework.cloud</groupId> <artifactId>spring-cloud-starter-ribbon</artifactId> </dependency>
周星驰 Web3 团队将上线独立 App；Gemini 刚发就惹质疑：效果视频疑似剪辑；Meta 推独立AI图像生成器｜极客头条...
假装自己很用心: 这是第一个代码 [code=python] import turtle # 初始化turtle t = turtle.Turtle() t.speed(0) # 设置最快速度 # 设定画笔颜色和填充色 t.pencolor("red") # 边框颜色 t.fillcolor("pink") # 填充颜色 t.begin_fill() # 开始填充图形 # 绘制爱心左半部分 t.left(45) # 左转45度 t.forward(100) t.circle(100, 180) # 以当前位置为中心，半径100，逆时针转180度 # 绘制爱心右半部分 t.circle(100, 180) # 再逆时针转180度回到起点 t.forward(100) # 结束填充图形 t.end_fill() # 提升画笔，隐藏turtle t.penup() t.hideturtle() # 显示最终图形 turtle.done() [/code] 这是第二个代码[code=python] [code=python] import turtle # 初始化turtle t = turtle.Turtle() t.speed(0) # 设置最快速度 # 设定画笔颜色和填充色 t.pencolor("red") # 边框颜色 t.fillcolor("pink") # 填充颜色 t.begin_fill() # 开始填充图形 # 绘制爱心左半部分 t.left(45) # 左转45度 t.forward(100) t.circle(100, 180) # 以当前位置为中心，半径100，逆时针转180度 # 绘制爱心右半部分 t.circle(100, 180) # 再逆时针转180度回到起点 t.forward(100) # 结束填充图形 t.end_fill() # 提升画笔，隐藏turtle t.penup() t.hideturtle() # 显示最终图形 turtle.done() [/code] [/code]
周星驰 Web3 团队将上线独立 App；Gemini 刚发就惹质疑：效果视频疑似剪辑；Meta 推独立AI图像生成器｜极客头条...
假装自己很用心: 啦啦啦啦遮挡代码 [code=python] import turtle # 初始化turtle t = turtle.Turtle() t.speed(0) # 设置最快速度 # 设定画笔颜色和填充色 t.pencolor("red") # 边框颜色 t.fillcolor("pink") # 填充颜色 t.begin_fill() # 开始填充图形 # 绘制爱心左半部分 t.left(45) # 左转45度 t.forward(100) t.circle(100, 180) # 以当前位置为中心，半径100，逆时针转180度 # 绘制爱心右半部分 t.circle(100, 180) # 再逆时针转180度回到起点 t.forward(100) # 结束填充图形 t.end_fill() # 提升画笔，隐藏turtle t.penup() t.hideturtle() # 显示最终图形 turtle.done() [/code] 阿拉啦啦啦

大家在看

最新文章

2024

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

flybirding10011 谢谢支持啊999

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。