![](https://img-blog.csdnimg.cn/20201014180756913.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
语音信号处理
A霸天下
作大分母
展开
-
亚像素卷积,基于pytorch实现
前言作为一种增强数据分辨率的方法,亚像素卷积被用于计算机视觉中的超分任务当中。与反卷积不同的是,反卷积是先补零,在进行卷积操作,而亚像素卷积是直接对数据进行channel,维度的扩大,再通过reshape的方式来提高分辨率。亚像素卷积走的是:[B,H,W,C] -》[B,H,W,Crr] -》[B,Hr,Wr,C] 的过程,集体流程如下图所示代码实现import torchimport torch.nn as nnimport torch.nn.functional as Fclass原创 2021-04-12 11:35:00 · 3070 阅读 · 2 评论 -
SpeakerBeam,说话人提取算法
前言SpeakerBeam发表与interspeech2018,这项技术需要预先说话人信息,然后从混合语音中提取相应的语音,SpeakerBeam与之前的传统语音分割算法相比,第一无需知道这段语音说话人位置,个数等信息,更符合实际场景的需要。如图所示,SpeakerBeam包括两个模型,混合模型:混合语音在STFT后相加,提取模型:提取目标语音。文章中所提到的SpeakerBeam有多种,但是最终最好的一种如图所示: the scaled activations method and sequen原创 2021-01-24 14:34:42 · 1316 阅读 · 2 评论 -
堆叠一维卷积来做唤醒
前言一维卷积在语音和自然语言处理中十分常见,本篇paper:Stacked 1D convolutional networks for end-to-end small footprint voice trigger detection通过一个特征上的一维卷积和时间维度上的一维卷积来完成特征堆叠的。论文block结构如上图所示,其中现在特征维度上做一维卷积,然后在时间维度上做一维卷积,其中在时间维度上可以根据卷积核大小控制帧长。本片论文的block实现也十分简单,正如论文中所说:相当于一个2D原创 2021-01-14 09:49:55 · 334 阅读 · 0 评论 -
FSMN,一种能替代RNN的新结构?
FSMN前言FSMN全称:Feedforward Sequential Memory Networks,是国内知名的讯飞公司所提出,据笔者所知可能应用到了阿里的语音识别以及唤醒的,作为一种可以和RNN比较的网络,我觉得大家有必要的去学习以及了解一下网络结构在论文中的结构如图所示,其实FSMN是改进了DNN的算法,也就是在DNN网络中相应的某一层中加入了Memory block,这种结构分...原创 2019-12-15 14:38:43 · 3645 阅读 · 0 评论 -
x-vector很神秘?tensorflow采用1维卷积来实现
前言为什么会采用x-vector?在语音处理中(主流应用在声纹当中),特征采用的是MFCC特征,其中一个维度代表了帧长,通俗来说,对应的是一段语音的长度,另一个维度代表的是每一帧MFCC特征的维数。通常来说语音都采用了DNN,但是DNN需要补0,但是补0的话会把0,参与网络的运算当中,会影响网络的性能,TDNN加embedding(也就是x-vector)操作可以解决0参与到网络运算这一问题。...原创 2019-11-24 00:22:20 · 1070 阅读 · 0 评论 -
tensorflow实现Global average pooling 解决CNN中输入数据size不等的问题
摘要笔者最近在研究语音识别的项目,发现与图像不同的是,语音识别在深度学习网络面临着帧长不等(相对来说图像有很多解决方法,如:crop,resize)的问题,而目前在语音方向上的一个较为常规的方法是选定较大的帧长,然后padding 0,这种方法会让零参与运算,而NIN(network in network)的方法给了笔者一个新的思路,可以解决这一问题。Global averge pooling...原创 2019-10-13 16:01:43 · 3521 阅读 · 0 评论 -
基于Python的语音信号处理(1)——能量分离算法研究
能量分离算法(ESA)使用非线性能量算子来跟踪语音信号,将只包含单个共振峰的语音信号分离成频率分量与幅值分量原创 2019-08-03 16:32:58 · 1695 阅读 · 0 评论 -
基于Python的语音信号处理(2)——基于语音信号的时域分析(分帧,短时能量分析,过零率)
摘要语音信号的典型特征包括短时能量分析,过零率,短时自相关系数(下一个博客再说)等。实现语音信号的短时分析,首先实现加窗分帧就要。分帧一般来说假定语音信号在10ms到30ms之间是一个平稳的信号,窗函数平滑的在语音信号中滑动,来将语音信号分帧,分帧可以连续也可以交叠,一般来说都是交叠的方法,交叠的区间叫做帧移,一般来说为窗长的一半。在本次例子中定义的窗函数为汉明窗与汉宁窗,大家可以自行更改...原创 2019-08-11 12:14:29 · 3262 阅读 · 1 评论 -
基于Python的语音信号处理(3)——基于语音信号的频域分析
前言今天主要来完成频域上的语音信号的处理,目前在频域分析主要基于傅里叶变换,如图所示:分别完成短时傅里叶变换,功率谱,对数功率谱,倒谱:其中傅里叶变换主要采用的是scipy.fftpack中的fft短时傅里叶变换def short_time_FFT(audio_1,N,move):##################N代表帧长,move代表帧移 short_time=np.zer...原创 2019-08-15 13:01:58 · 2539 阅读 · 3 评论