- 博客(19)
- 收藏
- 关注
原创 科大讯飞--新冠肺炎检测赛道第八分享
详情见如下链接http://mp.weixin.qq.com/s?__biz=MzU3NTY0OTA3Nw==&mid=2247484429&idx=1&sn=5a0c8e549f581dc67f34789f3072180c&chksm=fd1ea057ca692941760c256e9b8f65f11439ffcb5cfba4d5093b314c7264cb85...
2021-09-25 00:24:00 194
原创 webrtc完整编译记录
有关Webrtc后续,可关注公众号:音频探险记概述webrtc可以说是音视频领域的百科全书了,集音视频采集、音频处理、编解码、传输、渲染于一体。之前一直想完整的编译它来着,但因为各种各样的原因没有编译成功,(没有梯子代码下不完整;编译环境搭建不完全)。上次偶尔在知乎上看到了一种下载webrtc代码的方法,故抱着尝试的心态又整了一把,没想到编译成功了。所以写下此文记录一下编译过程。本文主要包括...
2021-06-14 00:10:00 156
原创 sqrt优化方法整理
http://mp.weixin.qq.com/s?__biz=MzU3NTY0OTA3Nw==&mid=100000527&idx=1&sn=197c1f832841a86c09010aa5137ceb68&chksm=7d1ea7554a692e439503d81bae10d57d28954789b516d795c1f4b3156ce55246a4e3f290...
2021-05-15 11:22:00 148
原创 频域特征-Fbank
Fbank是一种前端处理方法,以类似人耳的方式对音频进行处理,可以提高语音识别的性能。fbank的计算流程与语谱图类似,唯一的区别就在于加了个Mel滤波器,从而使得得到的特征更逼近人耳特性。有关于Mel滤波器的相关内容可以查阅https://mp.weixin.qq.com/s/pGwO_27x8ddQF55wTSQlmA。接下来就介绍一下fbank的求取过程。• 预加重因为语音信号的功率谱...
2021-04-15 22:28:00 406
原创 时域特征--线性预测系数(LPC)以及LPCC
欲知更多,请关注公众号:音频探险记LPC线性预测系数的基本思想:由于语音样点之间存在着相关性,那么当前点/未来点可以用过去的p个样本点进行预测,即其中就是要求的LPC,P表示预测阶数。好处:可以得到声道模型及其模型参数的方法,广泛用于语音识别以及语音合成中。import librosaimport python_speech_featuresimport soundfile as ...
2021-04-05 11:45:00 1072
原创 webrtc-agc2算法原理梳理
本文档主要介绍开源框架webrtc中agc2原理,以下部分全是个人所理解的,如有错误之处请指出。agc2算法主要有3个模块,固定增益模块,自适应模块以及限幅模块。其关键函数位于GainController2.cc中的Process(AudioBuffer* audio)...未完待续本文的具体内容可见微信公众号:音频探险记。...
2021-03-14 12:18:00 525
原创 DRC-动态范围控制
DRC,全名Dynamic Range Control,主要用于调整输入语音的动态范围。应用场景可以有如下的几种形式• 类似于AGC的功能,对输入的忽大忽小语音进行动态拉伸,使语音听起来平稳。• 作为小信号滤除器,滤除低于某一阈值的信号。一般用来滤除噪声,避免噪声在后续模块AGC中被放大。本文主要介绍DRC用作小信号滤除器。而动态拉伸忽大忽小语音一般建议在场景相对确定的情况下使用。因为DR...
2021-03-14 10:41:00 535
原创 Python基础回顾--基本数据类型
在这篇文章中,主要是对Python做一个较为细致的回顾。TypePython中比较常用的几种数据类型包括string,integer以及float。一般通过type()去获得一个变量的数据类型x = 2.14type(x) # floatx = 2type(x) # intx = '2'type(x) # str另外一种数据类型是布尔型变量,booleantype(Tru...
2021-02-28 21:47:00 71
原创 webrtc-agc2
本文主要整理了webrtc中agc2模块。目前为止,webrtc提供的agc总共有三个版本,最老的版本在legacy文件夹下,然后就是agc文件下的一个版本,最后一个就是位于agc2文件下的另一版本。相较于之前的版本,agc2引入了RNN做vad估计。当然其它的部分也有所改进,如噪声估计、增益求解。webrtc的agc2模块打算分两次博文介绍,本篇主要介绍编译以及agc2效果测试,下一篇博文主要...
2020-12-06 22:41:00 477
原创 np.random.choice 使用小结
最近在实现某个功能的时候,用到了np.random.choice这个函数。特此记录一下,以免日后忘记。它的功能就是从给定的一个1-D数组中以某种概率随机抽取D个数。函数的定义如下choice(a, size=None, replace=True, p=None)a: 给定的一维数组且必须是一维数组。可以有两种给值,给定一个数组,例如a=[1,2,3,4]给定一个正值,此时就相当于从列...
2020-10-30 23:20:00 112
原创 python中向量扩展
最近在给一个多通道语音加上不同信噪比的单通道噪声的时候,需要将单通道噪声变成多通道,比如\(6*1\)的噪声向量,那么需要变成\(6*4\)的矩阵。也就是将自身堆叠4次构成新的矩阵。然后再去跟多通道语音相加。(因为后面涉及到一些操作,广播的方式不利于后面的处理)。现在介绍两种方法解决该问题使用tileimport numpy as npx = np.array([1, 2, 3, 4])...
2020-10-25 17:00:00 152
原创 webrtcvad模块使用
最近在实现一个功能的时候,用到了webrtc模块的vad部分的python版本,因参考的原博客找不到链接了,为了方便自己以后查阅相关内容,故整理成博客供日后方便。接下来开始正题,当然了,要想使用这个webrtcvad,自然就是安装它了,命令也很简单。pip install webrtcvad关于该包的使用,github上有提供一个example.py,可以参照该example.py文件使用w...
2020-10-25 16:41:00 289
原创 pyroomacoustics--生成房间脉冲响应
pyroomacoustics能够在2D/3D房间中快速构建单/多个声源以及麦克风的模拟场景,借助image方法能够有效生成房间脉冲响应并模拟声源和麦克风之间的传播途径。接下来系列博文将主要介绍pyroomacoustics的使用。今天主要介绍利用pyroomacoustics生成房间脉冲相应(Room Impluse Response, RIR)。在使用pyroomacoustics之前,首...
2020-10-22 22:59:00 755
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人