音频技术
文章平均质量分 69
音频技术
Dr. 卷心菜
PhD在读|音频信号处理|机器学习|音乐信号处理
展开
-
python 音频变调不变速方法
变调的方法也可以分为三类:时域法、频域法、参量法。时域法中,Crochiere等人于1983年提出了重采样的方法[42],该方法是实现变速变调最简单、最常用的方法之一。假设重采样因子为P/Q,其中,P为上采样因子,Q为下采样因子。上采样过程就是往原始信号相邻两点间内插P-1个采样点,这样使得基音周期变为原来的P倍,频谱压缩为原来的1/P倍,时长变为原来的P倍,即基频变为原来的1/P倍,音调降为原来的1/P倍,语速变为原来的1/P倍。同样地,下采样过程就是每隔Q-1个点进行抽取,这样会使得基音周期长度为原创 2021-02-01 17:11:47 · 4877 阅读 · 0 评论 -
声纹、语音识别入门书籍推荐
最近在读王泉老师刚刚出版的新书《声纹技术》,收获很多,想分享一下我从小白到入门觉得有用的书籍。《声纹技术》王泉 ????????????????????这本书首先对声纹识别的前生今世做了一个概述,对于刚接触声纹的同学来说可以了解本领域技术的发展,要是我当初开始学习时有这本书的话就会少走很多弯路。...原创 2020-10-24 23:59:16 · 2856 阅读 · 1 评论 -
SOX命令:音频位深度、采样率以及码率
(一)位深度(bit-per-sample)。位深度也叫采样位深,音频的位深度决定动态范围。我们常见的16Bit(16比特),可以记录大概96分贝的动态范围。那么,您可以大概知道,每一个比特大约可以记录6分贝的声音。同理,20Bit可记录的动态范围大概就是120dB;24Bit就大概是144dB。假如,我们定义0dB为峰值,那么声音振幅以向下延伸计算,那么,CD音频可的动态范围就是"-96...原创 2019-03-18 11:23:30 · 9865 阅读 · 0 评论 -
【DSP】时域补零与频率分辨率的关系
文章目录1. 频率分辨率2. 时域补零的好处3. 时域补零实验图一:补零后长度为2048采样点图二:补零后长度为65536采样点(与原始音频长度接近)图三:补零长度到96000采样点4. 小结1. 频率分辨率频率分辨率是指对两个最近的频谱峰值能够分辨的能力。一般来说,窗口长度NNN越大,则物理上的频率分辨率越高,其中NNN指的是真实的信号采样点个数,而不是补零之后的长度。频率分辨率可以表示为:Δf=1NTs=fsN\Delta f = \frac{1}{NT_s} = \frac{f_s}{N} Δ原创 2020-09-28 22:42:59 · 5089 阅读 · 0 评论 -
【DSP】频谱泄露与栅栏效应简介
文章目录1. 频谱泄露1.1 什么是频谱泄露1.2 频谱泄露的影响1.3 如何减少频谱泄露2. 栅栏效应2.1 什么是栅栏效应2.2 怎样减小栅栏效应1. 频谱泄露1.1 什么是频谱泄露实际情况下,时频谱都被限制为有限长序列。在处理过程中往往需要加窗操作,但是加窗会导致信号截断。时域乘上窗函数,频域相当于与窗函数的频谱周期卷积。时域的截断,就会导致频域变宽,造成泄露。1.2 频谱泄露的影响得到的频谱有失真,这种失真主要是频谱的“扩散”(拖尾、变宽)泄露也有可能造成混叠,因为泄露会导致频谱扩展原创 2020-09-28 16:12:15 · 8731 阅读 · 0 评论 -
【DSP】计算DFT频谱的参数选择
文章目录时域离散化(满足采样定理)频域离散化参数选择例:音乐频谱分析参数选择利用DFT在计算连续时间信号时,由于时域的采样往往会出现一些问题,下面就DFT的一些参数做一些探讨。时域离散化(满足采样定理)若信号的最高频率为fhf_hfh, 根据奈奎斯特采样定理,抽样频率(采样率)应满足:fs>2fhf_s > 2f_hfs>2fh也就是抽样间隔TTT应满足:T=1fs<12fhT = \frac{1}{f_s}<\frac{1}{2f_h}T=fs1<原创 2020-09-28 14:43:13 · 2722 阅读 · 0 评论 -
【音频技术实践】声源分离理论与算法
【音频技术实践】系列语音信号去混响(dereverberation)最新研究总结语音去混响算法之WPE( Weighted Prediction Error for speech dereverberation)文章目录:声源分离理论与算法【音频技术实践】系列前言一、语音信号的线性产生模型1. 激励模型2. 声道模型3. 辐射模型二、模型求解方法三、代码与实验结果四、参考文献前言随着神经网络的不断发展,数据规模的不断增大,算力的不断提高,语音领域已经逐步走向成熟。如今的研究人们大多把精力放在原创 2020-08-27 22:10:14 · 4984 阅读 · 0 评论 -
【音频技术实践】逆滤波(inverse filtering)
文章目录前言逆滤波(Inverse Filtering)经验之谈(Empirical Notes on Inverse Filtering)代码 Matlab Code for Inverse Filtering前言在图像领域有很多写逆滤波的博客,而在音频信号处理领域关于逆滤波的详细阐述很少,这篇文章首先叙述逆滤波的概念,其次总结一些逆滤波方法在应用时需要注意的点,最后搬运了斯坦福大学JULIUS O. SMITH III的PHYSICAL AUDIO SIGNAL PROCESSING书中的matla原创 2020-08-25 11:24:16 · 5462 阅读 · 0 评论 -
Python读取sqlite数据并导入DataFrame的两种方法
在使用开源的sqlite数据的时候,会发现有不同的格式,如.sqlite .db ,其实都可以用python内置的sqlite3包中的函数打开。代码如下:方法一:import sqlite3import pandas as pdwith sqlite3.connect('../database/good-sounds/database.sqlite') as con: c = con.cursor() # 提取整个表packs,存到dataframe中 packs = p原创 2020-07-30 10:17:24 · 7143 阅读 · 1 评论 -
声纹识别笔记(二)提取ivector与PLDA流程概述以及最新模型
GMM-UBMGMM:均值、方差、权重UBM:共性特征i-vectorMAP说话人自适应m:UBM的均值(已知)s:把UBM针对特定说话人调整成GMM,GMM的均值(通过特征得到)T:训练得到w:特定说话人的ivector一般只更新均值,不更新方差DNN-based ivectord-vector输入之前的30帧和之后的10帧,总共4...原创 2019-04-11 22:25:52 · 3711 阅读 · 0 评论 -
声纹识别笔记(一)实验平台 常用特征 神经网络模型
发展源流: GMM -- ivector -- DNN背景介绍评价指标设置一个阈值,高于这个阈值的为True,低于则不接受用softmax输出一个概率Accuracy,则EER ~(1-ACC)/2。 e.g. Accuracy = 80% EER = (1-0.8)/2 = 10%实验结果越好,阈值选取越高,一般作为评价指标。EER是(一个分类器的)ROC曲线(接...原创 2019-04-11 21:34:03 · 3204 阅读 · 0 评论 -
语音去混响算法之WPE( Weighted Prediction Error for speech dereverberation)
目录简介信号模型WPE 算法(Weighted prediction error)参考文献简介背景噪声和空间内声反射产生的混响是声学信号处理和远场语音识别的两大障碍。WPE(Weighted Prediction Error)算法主要用于去除信号中的混响成分,此算法基于线性预测估计,是目前针对去混响(dereverberation)问题的主流算法之一。信号模型假设观测信号由D个麦克风采集,则该信号由STFT变换之后可表示为一个D维向量yt,fy_{t,f}yt,f,其中时间index为t,频率in原创 2020-07-17 23:02:49 · 14243 阅读 · 21 评论 -
语音信号去混响(dereverberation)最新研究总结——附论文与代码
语音信号去混响是语音降噪的一种方法,本文现将至2020年7月经典的算法总结如下。算法目录1. SPENDRED (SPeech ENhancement and DeREverberation by Doire)2. Two-stage algorithm by DeLiang Wang's Group3. About This Dereverberation Business: A Method for Extracting Reverberation from Audio Signals4. Exem原创 2020-07-08 18:03:54 · 9582 阅读 · 3 评论