语音
文章平均质量分 87
book_bbyuan
这个作者很懒,什么都没留下…
展开
-
最基本的麦克风阵列延时累加和算法,DelayAndSum beamformer
最近从 phased.TimeDelayBeamformer 扒了它的代码,简单改造作为最基本的麦克风阵列算法学习refer to https://www.mathworks.com/help/phased/ref/phased.timedelaybeamformer-system-object.html一、延时累加和beamformer可以说是最基本的麦克风阵列算法,方法很简单,就是通过平移每个通道数据到合适的位置,然后累计调整系数即可。但问题是什么?一般采集到的麦克风数据..原创 2021-07-30 12:03:53 · 6341 阅读 · 3 评论 -
语音的合成和分解 enframe和overlapadd 用法
语音的常用处理就是分帧,分帧,fft变换,做一些处理,然后反变换回到时域。这里面常用到的就是enframe 和 overlapaddenframe分帧,我想大家都很熟悉了,这里不再介绍,overlapadd具体含义可以看这篇文章https://blog.csdn.net/u010592995/article/details/81001751上面这篇文章介绍的很清楚。一、问题的引入http://www.ee.ic.ac.uk/hp/staff/dmb/voicebox/mdoc/v_m原创 2020-11-25 17:33:01 · 5491 阅读 · 0 评论 -
再议GMM和HMM的一些用法
推荐murphy的工具箱,这篇博客是根据大牛的工具箱使用写一些noteKevin Murphy 现在在Google brain工作,曾在MIT lab工作,他是 Machine Learning: a Probabilistic Perspective 的作者他写的关于机器学习的工具箱非常好,规范,注释也多,可供大家学习https://www.cs.ubc.ca/~murphyk/So...原创 2020-02-10 09:45:03 · 1928 阅读 · 3 评论 -
audacity VS2010 工程搭建
audacity的 VS2015工程网上已经有了,https://blog.csdn.net/weixin_34224941/article/details/93950373按照这个instructions就可以搭建一个比较稳定的vs2015(vs2017)的版本我这里主要是怀旧,用旧版本的vs2010 搭建一个轻量级的audacity工程供调试使用audacity的编译需要wxWid...原创 2019-11-07 16:13:19 · 499 阅读 · 0 评论 -
卡尔曼滤波之我见
最近简单看了一下kalman滤波,这里先写些笔记卡尔曼滤波说的是“两套系统“得到的计算量或者测量量,一个是根据系统状态预测出来的下一个状态的各种参量,另一个是实际测量值,那么我们怎么在这两套系统中找到更合适的值。说白了,它所谓的这两套系统都是服从高斯分布的,他们的乘也符合高斯分布,根据这两个高斯分布的方差的大小,调整到合适的方差选择F有的地方有人喜欢写成A。B是控制矩阵, x应该加...原创 2019-09-12 16:56:13 · 438 阅读 · 0 评论 -
Aurora2 语音数据库的建立
Aurora2 语音数据库 经常在学术上被用来作为评测数据库,很多语音识别的base数据库,HTK的训练模型数据库,VAD,基频检测都用Aurora2语音数据库。 Aurora2语音数据库的具体情况可以参考 http://aurora.hsnr.de/aurora-2.html,大致含义是 这个数据库是由 TIDigits 数据库 变换过来的,说白了就是 降采样之后...原创 2019-08-22 17:17:56 · 2246 阅读 · 2 评论 -
再议Uniform FFT modulated filterbank
前面写过一篇文章,但是感觉对于FFT 的filterbak还是没有说清楚,这边就再次把自己的一些理解说一下1、这里面包含的几个概念uniform,说明就是基础滤波器就一个,其他滤波器是它的一个变体,也就是调制(modulated)出来的,polyphase分解,多相分解,主要目的是同一个多相组里面对应的“延迟“”是一样的,等会我后面会详细揭秘2、FFT干嘛?只为了在analysis...原创 2018-11-09 17:58:46 · 688 阅读 · 0 评论 -
fftw3/gsl/kissfft/OouraFFT库中傅里叶变换/反傅里叶变换函数和Matlab中的fft/ifft的对应关系
只分析一维度的一、fftw_plan_dft_1d正变换:fftw_complex *in = fftw_malloc ( sizeof ( fftw_complex ) * n );fftw_complex *out = fftw_malloc ( sizeof ( fftw_complex ) * n );plan_forward = fftw_plan_dft_1d ...原创 2018-09-04 17:26:26 · 7418 阅读 · 2 评论 -
WebRTC VAD 中所用滤波器之分析
WebRTC VAD用了一些滤波器,这些滤波器的设置还是非常巧妙的,这篇文章分析他们所用滤波器之原理。下面分析的滤波器都是在文件vad_filterbank.c里面 在提取特征的时候,用的是滤波器组用来提取的log域上的能量,其中分band的频带是:(对于8khz采样的音频文件来说)3k-4k feature[5] , 2k-3k feature[4] , 1k-2k feat...原创 2018-06-18 20:45:41 · 4138 阅读 · 11 评论 -
Filter Bank 浅谈一二
语音信号中子带处理技术用的较为频繁,涉及到子带技术,不得不说说Filterbank一、最简单的两通道的滤波器组如下图,它有最基本的一些单元,比如分析滤波器,合成滤波器,插值和抽取其中H0,H1可以理解为低通、高通滤波器。我对一段音频进行低高通滤波,然后降采样,升采样,最后合成。他们的频谱关系如下图,滤波器我就不说了,效果很明显,这里有个问题就是为什么降采样?不做行不行。实际上降采样(或者叫抽取)是...原创 2018-05-18 17:31:25 · 21244 阅读 · 5 评论 -
WebRTC VAD算法初探
这几天对webrtc中的VAD算法做了一些研究,有了一些心得VAD算法中核心的是使用了GMM进行分类,noise作为一类,speech作为一类,两类求后验概率,并且实时的更新GMM的参数但是这个GMM的具体情况是怎么样的,它的均值,方差,都是多少,使用特征的维度是多少?参数又是怎么更新的 一、GMM的 权重,均值,方差分析频率域上分成了6个子带(channel),对每个子带求能量,初始值有一个GM...原创 2018-03-23 10:37:40 · 7211 阅读 · 9 评论 -
高斯混合模型(GMM model)以及梯度下降法(gradient descent)更新参数
关于GMM模型的资料和 EM 参数估算的资料,网上已经有很多了,今天想谈的是GMM的协方差矩阵的分析、GMM的参数更新方法1、GMM协方差矩阵的物理含义涉及到每个元素,是这样求算:用中文来描述就是,注意后面的那个除以样本数-1,就是大括号外面的E (这叫无偏估计)上面公式也提到了,协方差本质上是就是很多向量之间的内积,内积是什么? 举个例子说明,原创 2017-12-19 15:31:30 · 7124 阅读 · 5 评论