语音
文章平均质量分 73
Evan_love
Never excuse for failure!
展开
-
AI+语音方面总结(一)
开始总结语音相关知识点1、语音分离和增强的本质是什么?a) 一个是分类,一个是回归。b) 分类和回归的区别在于输出变量的类型。定量输出称为回归,或者说连续变量预测;定性输出称为分类,或者说是离散变量预测。c) 本质一样,都要建立映射关系。在实际操作中,可以相互转化。2、TCN和LSTM的区别是什么?a) TCN是时序卷积网络(Temporal convolutional network),主要由因果卷积(causal convolution)和空洞卷积(Dilated Convolution.原创 2021-10-27 20:48:44 · 2742 阅读 · 0 评论 -
2021-08-17 CCF语音增强沙龙笔记
原创 2021-10-04 21:48:30 · 192 阅读 · 0 评论 -
第十章---《实时语音处理实践指南》语音编/解码笔记
1、语音编/解码简述 编码的过程就是对语音进行压缩,压缩应该能够保留语音的主要信息甚至是全部信息,解码就是对语音进行解压缩,恢复原始语音信号。编解码可分为有损和无损两类,有损情况下,取语音中少量冗余信息,丢掉其他不重要的信息。 语音编码分为波形编码、参数编码和混合编码三种,基于波形的编码分为时域编码和频域编码两种,如PCM编码,参数编码用若干参数对发生过程建模,接收端根据这些参数将接收到的信号恢复为原始语音信号,如LPC、MELP编码,在低比特率下参数编码的效果比波形编码好。不同的语音编码器在比特率、复原创 2021-08-10 23:20:22 · 2938 阅读 · 2 评论 -
第八章---《实时语音处理实践指南》盲源分离笔记
本章利用信号的高阶统计量来分离出目标语音,盲语音分离就是假定源信号具有相互独立的统计特性,利用高阶统计量度量独立性,它能分离出所有非高斯性声源,实际使用中最常用的为独立成分分析法(ICA)。一般根据麦克风个数与声源个数的大小关系来区分不同的盲语音分离方法。在这里仅介绍麦克风个数大于或等于声源个数的情况,对于麦克风个数小于声源个数的情况,使用信号处理的方法效果不佳。一、ICA基本概念假定现有m个声源和m个麦克风,麦克风采集信号分别为x1(t),x2(t),⋯ ,xm(t)x_1(t),x_2(t),\.原创 2021-07-26 22:00:08 · 1238 阅读 · 2 评论 -
第四章---《实时语音处理实践指南》单通道降噪笔记
一、单通道降噪方法谱减法谱减法基于人类语音时/频域的稀疏性,在非语音段估计噪声,在带噪的语音段减去非语音段的估计的噪声得到纯净的语音。该方法只有幅度谱受影响,而相位谱并不受影响,这种方法要求噪声谱是静态的或者准静态的,当估计的背景噪声过小时,会有噪声残留,残余的噪声会形成音乐噪声,如果估计的背景噪声过大,则会导致语音被消掉。维纳滤波法该方法基于语音和噪声的统计独立性,使用MMSE准则降噪。基于最大似然(ML)、最大后验(MAP)、最小均方估计(MMSE)的统计模型法贝叶斯估计法原创 2021-07-18 19:55:21 · 1436 阅读 · 3 评论 -
第三章---《实时语音处理实践指南》语音端点检测笔记
一、 简要描述 语音端点检测(VAD)用于判断给定的音频数据是否存在语音,其常用在语音编解码、降噪、增益控制、波束形成以及唤醒识别等算法中。VAD检测给定音频数据含有语音的频率,VAD方法通常包括特征提取和语音、非语音判决两部分,当前使用的语音特征主要有时域和频域两种,时域特征包括能量波动、过零率、最大能量和最小能量等,频域特征主要有基频、频谱组成、频谱质心、谱差、谱密度、谱衰减等。用于VAD判决的特征通常可以分为六大类:能量、频域、倒谱、谱差、谐波和长时信息,基于能量的特征计算简单,如能量过零率,基于谱原创 2021-07-18 10:44:06 · 730 阅读 · 0 评论 -
第二章---《实时语音处理实践指南》发音机理与器件学习笔记
一、语音的产生和接收1、语音产生机理(1) 语音具有短时平稳性,这是很多语音算法前提之一。(2)语音发音可以分为清音和浊音两类,发浊音时大部分能量集中在低频段,且在时域上具有周期性,在频域上频谱分布具有共振峰结构。清音和白噪声类似,没有明显的时域和频域特征。(3) 浊音比如元音的语音产生机理如下:空气通过正常呼吸进入肺部,进入时一般无语音产生。空气通过气管排出肺时,依据贝努利定律(在一个流体系统,比如气流、水流中,流速越快,流体产生的压强就越小),被声门开口处空气压力拉紧的喉头处的声带会振动。原创 2021-07-13 22:16:23 · 456 阅读 · 0 评论 -
第一章---《实时语音处理实践指南》信号处理学习笔记
一、 离散傅里叶变换 离散傅里叶变换(DFT)是离散信号时/频域变换的方法。作用类似于棱镜,将由多种频率混合而成的语音按频谱散射,经过种种处理后,再反变换到时域,就可以获得“提纯”后的语音信号。实数DFT的输入是实数,得到的频点有两个集合,分别是正弦(cos)和余弦(sin)函数的系数,对应于正频分量和负频分量。1、DFT短时傅里叶变换可以获得较为准确的时序关系,比如说“ai”这个字的发音,“a”和“i”的发音在时间上是有顺序关系的,这时可以将序列等时分割成若干个小段,按顺序对每一个小段做DFT分原创 2021-07-07 17:20:42 · 1324 阅读 · 1 评论 -
第0章---《实时语音处理实践指南》绪论学习笔记
一、语音处理流程1、人的声带振动产生驻波信号,信号通过空气传播引起麦克风的振膜振动,经过ADC(模数转换器)采样后将机械振动信号转换成电荷量,进而转换成离散的数字信号。2、用噪声抑制等语音算法增强数字域的语音信号,这里的增强是“提纯”(去除噪声和干扰,增加语音可懂度和语音听感质量)采集到语音信号。可懂度,听者能听懂通过一定传声系统传递的言语信号的百分率。也称为 语言清晰度 (speech intelligibility)语音听感质量,PESQ (perceptual evaluation o原创 2021-06-29 21:52:41 · 959 阅读 · 0 评论