信号处理
文章平均质量分 86
BarbaraChow
关注语音 & 语言
展开
-
单因素方差分析
单因素方差分析(one way ANOVA,也称F检验),是用来研究一个控制变量的不同水平是否对观测变量产生了显著影响。转载 2024-08-21 17:17:14 · 670 阅读 · 0 评论 -
两个不同频率纯音合成
当两个或多个不同频率的声音波叠加转载 2024-04-18 10:44:58 · 353 阅读 · 0 评论 -
音频变速python版
语音变速原创 2024-04-14 22:05:03 · 2517 阅读 · 0 评论 -
音频读取之wave和liborsa
wave库基本操作原创 2024-03-11 22:53:41 · 856 阅读 · 0 评论 -
声强和能量及其praat操作
声强和能量及其praat操作原创 2024-03-07 20:15:26 · 1874 阅读 · 0 评论 -
基频估计之DIO算法
DIO算法提取F0原创 2023-11-27 22:01:41 · 1457 阅读 · 0 评论 -
插值操作interp(MATLAB&python版)
插值法又称“内插法”,是利用函数f (x)在某区间中已知的若干点的函数值,作出适当的特定函数,在区间的其他点上用这特定函数的值作为函数f (x)的近似值,这种方法称为插值法。如果这特定函数是多项式,就称它为插值多项式。注意:所有的插值方法都要求x是单调的,并且xi不能够超过x的范围。转载 2023-04-06 16:50:43 · 9323 阅读 · 0 评论 -
最小相位、全通滤波器、群延迟、相位延迟
最小相位系统转载 2023-09-07 15:33:56 · 2937 阅读 · 0 评论 -
谱包络之pysptk和pyworld库
一个是mel广义谱表示,转换成MLSA声码器能够合成的语音参数,就能直接合成语音;一个是对语音频谱包络进行编码,需要再解码成普参数再合成语音。原创 2023-08-11 21:49:00 · 605 阅读 · 0 评论 -
内积inner product、外积outer product、哈达玛积element-wise product
内积inner product、外积outer product、哈达玛积element-wise product转载 2023-07-12 11:22:56 · 2789 阅读 · 0 评论 -
小波变换之pycwt (python)
PyCWT是用于连续小波谱分析的Python模块,它包括小波变换和FFT算法统计分析的常规操作的集合。此外,该模块还包括交叉小波变换、小波相干性测试和样例脚本。该模块需要NumPy和SciPy,matplotlib模块。原创 2023-06-16 12:15:33 · 4763 阅读 · 1 评论 -
HARVEST基音检测算法
Harvest的独特之处在于可以获得可靠的F0轮廓,减少了将浊音部分错误地识别为清音部分的错误。在第一步中,算法使用多个不同中心频率的带通滤波器提取基本分量,从滤波信号中得到基本F0候选值;然后利用瞬时频率对基本F0候选对象进行细化和评分,然后估计出每帧中的几个F0候选对象。由于基于基本成分提取的逐帧处理对时间局部噪声的鲁棒性较差,在第二步中使用了使用相邻f0的连接算法。这种连接利用了F0等高线在短时间内不会急剧变化的事实。原创 2023-06-06 21:02:00 · 868 阅读 · 1 评论 -
离散余弦变换DCT
通过研究发现,DCT除了具有一般的正交变换性质外,其变换阵的基向量很近似于Toeplitz矩阵的特征向量,后者体现了人类的语言、图像信号的相关特性。因此,在对语音、图像信号变换的确定的变换矩阵正交变换中,DCT变换被认为是一种准最佳变换。在近年颁布的一系列视频压缩编码的国际标准建议中,都把 DCT 作为其中的一个基本处理模块。转载 2023-05-24 21:25:13 · 7376 阅读 · 0 评论 -
矢量量化(Vector Quantization)
矢量量化技术转载 2023-05-24 16:32:51 · 1650 阅读 · 0 评论 -
Jitter and shimmer频率微扰与振幅微扰
之前只是听过这个词,但是什么是基频抖动,为什么要基频抖动,怎么抖动都还不是很了解,今天总结一下。原创 2023-04-21 11:50:32 · 2473 阅读 · 0 评论 -
Cheaptrick算法
2015年Morise发表在SPEECH COMMUNICATION期刊上的一篇文章。该算法目的是获得一个准确的、时间稳定的谱包络,采用基频(F0),由F0自适应加窗、功率谱平滑和频率域频谱恢复三部分组成。原创 2023-04-11 21:50:43 · 601 阅读 · 2 评论 -
什么是倍频程?
倍频程,又称倍波程,指在滤波特性曲线上,频率或波长之比为2或1/2的两个频率或波长之间的间隔。对于长波通滤波器,二分之一波长的截波点称倍波程;对于短波通滤波器,二倍波长的截波点称倍波程。倍波所对应的强度的对数与截波所对应的强度的对数之差的称滤波器陡度。对带通滤波器的波长特性曲线,两截波间的波长范围称波带。截波、陡度和波带是描述滤波器件性能常用的三个参数。看来很多领域学科都用到这个专业名词。上面说的是物理电磁波领域用到的。那我们主要关心声学领域的意义。转载 2023-04-10 11:33:04 · 7999 阅读 · 0 评论 -
STRAIGHT之基频提取
基于两组滤波器输出瞬时频率的微分特性,提出了一种针对非平稳,类语音的基频估计方法。从滤波器中心频率映射到输出瞬时频率的特定类型的固定点提供了输入信号的组成正弦分量的频率。当滤波器由等距Gabor函数与基数b样条基函数卷积制成时,固定点的微分特性提供了相应分量的载波噪声比的实际估计值。这些估计值用于选择基本分量,并集成分布在其他谐波分量中的F0信息。原创 2023-03-23 11:33:42 · 479 阅读 · 0 评论 -
STRAIGHT之 MulticueF0v14算法
STRAIGHT中提出的一种新的使用多个F0线索的基频提取算法。文章发表在2005InterSpeech上新的F0提取器在处理表达性语音时特别有效,其中不规则的声带振动模式更容易被检测到。原创 2023-03-21 22:49:58 · 494 阅读 · 0 评论 -
MATLAB voicebox工具箱之基频估计
voicebox是一个MATLAB中的语音处理工具箱,支持MATLAB6.5以上的版本。前面已有很多介绍基频的文章了,看我其他博客。今天主要学习voicebox工具箱之基频估计功能。只要安装了voicebox工具箱,调用很简单。原创 2023-03-15 19:37:26 · 368 阅读 · 0 评论 -
MELP声码器
这是一款比较老的声码器,是美国1998年指定的美国国防部DoD电信和系统标准,该算法由TI公司和ASP公司联合推出。原创 2023-03-14 13:53:01 · 1920 阅读 · 0 评论 -
基频的后处理
基频为什么要归一化?为了消除人际随机差异,提取恒定参数,在语际变异中找到共性。原创 2023-03-04 17:03:16 · 991 阅读 · 0 评论 -
基频检测算法详细总结
基音频率是语音信号的最重要的特征参数之一,基频的复杂之处在于不同的人发出的语音基频可能不同,同一个人说不同的字词时基频可能不同,同一个人在不同的时间说相同的字词时基频也可能不同。通常,基频与发音人声带的长短、薄厚、韧性、劲度和发音习惯等有关系,在很大程度上代表了个人的特征。此外,基频还随着人的性别、年龄不同而有所不同。基频也受说话人情绪,习惯,环境等的影响。一般来说,男性说话者的基音频率较低,而女性说话者和小孩的基音频率相对较高。可见,基频是随发音人、发音内容、发音时间等因素动态变化的。原创 2023-03-01 17:39:34 · 5396 阅读 · 0 评论 -
Matlab发声函数sound问题
今天发现个奇怪的事,用sound出来很奇怪的声音。感觉代码没问题啊,后面才发现问题出在采样率上。下面首先看看sound函数具体用法。原创 2023-01-19 23:25:39 · 5489 阅读 · 0 评论 -
AHOcoder声码器
AHOcoder 语音声码器由 Daniel Erro 在巴斯克大学的 AHOLAB 信号处理实验室研发,专门为统计参数语音处理设计的语音编解码器,它可将语音信号转换为可处理的具有良好统计建模特性的向量。AHOcoder 语音声码器的设计思想来源于谐波加噪声模型(Harmonics plus Noise Model, HNM),该模型将语音信号分解为低频段的谐波部分和高频段的噪声部分,但由于谐波数量会随基频的变化而变化。导致 HNM 特性不能直接用于统计系统。原创 2023-01-16 17:11:16 · 935 阅读 · 0 评论 -
非常实用的信号处理库pysptk(python)
pysptk是一款语音信号处理工具包。原创 2022-11-11 22:11:32 · 1305 阅读 · 0 评论 -
python常用信号处理函数之librosa
librosa.feature.mfcc主要学习利用该库提取mfcct特征,望各位批评指正。MFCCs (Mel-frequency cepstral coefficients):梅尔倒谱系数librosa.feature.mfcc(y=None, sr=22050, S=None, n_mfcc=20, dct_type=2, norm='ortho', lifter=0, **kwargs输入参数:y: 语音时间序列。np.ndarray [shape=(n,)] or Nonesr:转载 2020-09-01 11:58:27 · 4116 阅读 · 0 评论 -
常用的信号处理函数Scipy之滤波器
scipy滤波器转载 2022-11-11 10:40:53 · 6371 阅读 · 1 评论 -
(超详细)语音信号处理之特征提取
语音信号处理之特征提取要对语音信号进行分析,首先要分析并提取出可表示该语音本质的特征参数。有了特征参数才能利用这些特征参数进行有效的处理。根据提取参数的方法不同,可将语音信号分析分为时域,频域,倒频域,和其他域的分析方法。根据分析方法的不同,可将语音信号分析分为模型分析方法和非模型分析方法。本文主要以第一种分类方法。时域分析方法简单,计算量小,物理意义明确,但由于语音信号最最重要的感知特性在功率谱中,而人耳对相位变化并不敏感,所以频域分析更为重要。通过最基本的特征,后面针对不同的任务演变出了各种特征。原创 2022-09-14 14:28:26 · 31858 阅读 · 14 评论 -
基频,倍频,基波,谐波,基音,泛音
基频(fundamental frequency)自由振荡系统的最低振荡频率,复合波中的最低频率。复合振动或波形(如声波)的第一谐波成分,它具有最低频率,且通常具有最大振幅,亦称“基谐波”,或一次谐波。谐波,从字面解释,谐,有“多部分”的意思,谐和,指多部分协调有致。波,指的是波形(Wave)。合起来形容,就是有很多种波形合成的波形。时域描述,一般用。...转载 2022-08-27 14:44:54 · 14580 阅读 · 0 评论 -
长时平均功率谱
长时平均功率谱是语音的频谱特征之一,能够反映出一段语流中说话人的全部频率分量,以及各频率分量与强度之间的关系,是表征个人语音特性的参量之一,在说话人识别中应用广泛。计算方法:可利用快速傅立叶变换FFT方法算出的每帧的短时频谱,再对整个时间范围内求出的短时谱的平均。...原创 2022-08-11 16:21:55 · 1936 阅读 · 1 评论 -
梅尔倒谱系数MFCC由浅入深(超详细)
MFCC梅尔倒谱系数(Mel-scale Frequency Cepstral Coefficients)在语音识别(Speech Recognition)和话者识别(Speaker Recognition)方面,最常用到的语音特征就是梅尔倒谱系数(Mel-scale Frequency Cepstral Coefficients,简称MFCC)。根据人耳听觉机理的研究发现,人耳对不同频率的声波有不同的听觉敏感度。从200Hz到5000Hz的语音信号对语音的清晰度影响对大。两个响度不等的声音作用于人耳时,原创 2021-08-31 20:58:41 · 27498 阅读 · 0 评论 -
通俗易懂声学基础
声音是由振动产生的,当物体振动时,会引起周围空气的波动,导致空气粒子间的距离发生疏密的变化,从而引发空气压强的变化,这种变化会传到人的耳膜,再传到人的大脑,人就听到声音了。物理上,声音有四个基本特性:音色、音强、音高、音长。声波是由物体振动产生的,当物体振动时,会引起周围空气的波动,这就是声波。最简单的声波就是正弦波,正弦波发出的声音叫纯音。但日常生活中我们听到的大多不是纯音,而是复合音,也就是多个正弦波的叠加(不同频率和振幅)。声波每秒在空气中传播的距离,单位m/s。声速c受传播介质和温度的影响,常温常原创 2022-07-04 21:24:14 · 6773 阅读 · 1 评论 -
WSOLA波形相似叠加算法
WSOLA(Waveform similarity Overlap_Add)算法波形相似叠加算法主要功能:对语音进行变调,且语速不变。1. 语音合成从任务分类角度:声音转换(Voice Conversion,VC)文本-语音转换(Text to Speech, TTS)语音生成(Voice Generation,VG)从技术分类角度: 波形合成法(波形编码器)、参数合成法(声码器)、规则合成法(ps.与语音通信中的编解码器原理相同,区别一个是信道送来的参数,一个是从分析变换得到的参数)从合转载 2021-04-12 19:10:51 · 4067 阅读 · 1 评论 -
一文看懂Griffin_lim声码器
Griffin_lim算法详解声码器声码器是语音分析和合成的一一种工具,目前主要用来将将声学参数转换成语音波形,即合成。常见的传统声码器有 WORLD, STRAIGHT及其变种等; 还有目前较火的神经网络声码器,如WaveNet,一种可训练的基于深度神经网络的声码器,可生成高质量的语音波形。GL算法Griffin_lim声码器是将语谱图转回波形的一种算法。主要思想为已知幅度谱,未知相位谱,通过迭代生成相位谱,并用已知的幅度谱和计算得出的相位谱,重建语音波形。因为常见的特征MEL-spectrum转载 2022-04-08 18:01:36 · 2242 阅读 · 0 评论 -
python实现时频谱,语谱图,mel语谱倒谱等
python实现时频谱,语谱图,mel语谱倒谱等可以和理论相结合学习:https://blog.csdn.net/qq_36002089/article/details/108378796语音信号是一个非平稳的时变信号,但语音信号是由声门的激励脉冲通过声道形成的,经过声道(人的三腔,咽口鼻)的调制,最后由口唇辐射而出。认为“短时间”(帧长/窗长:10~30ms)内语音信号是平稳时不变的。由此构成了语音信号的“短时分析技术”。帧移一般为帧长一半或1/4。1. 导入所需库,加载语音,定义参数import原创 2022-03-30 15:52:27 · 16104 阅读 · 1 评论 -
声谱图,梅尔语谱,倒谱,梅尔倒谱系数(超详细)
语音特征提取。转载 2020-09-03 11:57:22 · 30260 阅读 · 6 评论 -
转换音频采样率
批量转换音频采样率–用sox在处理音频数据中,常见到16000Hz ,22050Hz, 48000Hz等音频数据,不同的模型需要不同采样率,因此需要批量转换。比如,现有音频,查看采样率:若没有sox,下载地址 https://sourceforge.net/projects/sox/files/sox/sox --i 000030.wav出现下图,要转成22050.方法一:想到librosa里的resample函数:import librosaimport osfrom tqdm原创 2021-06-27 14:44:30 · 1863 阅读 · 0 评论 -
宽、窄带语谱图分析总结
什么是语谱图什么是语谱图?最通常的,就是语音短时傅里叶变换STFT的幅度画出的2D图。之所以是通常的,是因为可以不是傅里叶变换。STFT时横轴时间,纵轴频率,每格颜色深浅代表信号能量功率大小。窄带语谱图“窄带”,顾名思义,频率带宽小,短时窗长,窄带语谱图就是长窗条件下画出的语谱图。窄带语谱图的带宽窄,那么在频率上就“分得开,更细致”,即能将语音各次谐波“看得很清楚”,即表现为“横线”。“横”就体现出了频率分辨率高。分辨率可以直观的看做“分开能力”。“频率分辨率”高就是在频率上将各次谐波分开的能力高,转载 2021-06-06 16:51:06 · 9534 阅读 · 1 评论 -
动态时间规整算法(DTW)通俗易懂
动态时间规整算法(Dynamic Time Warping )来源:-假定一个孤立词识别系统,利用模板匹配法进行识别。训练阶段,用户将词汇表种每一个词都念一遍,将其特征矢量的时间序列作为模板(template)存入模板库;识别阶段,将输入语音的特征矢量时间序列与模板库中的每个模板进行相似度比较,将相似度最高的最为识别输出。-实际上,这样做识别率很低,因为语音信号随机性太强了,同一个人在不同时刻讲同一句话,发同一个音,也不可能具有完全相同的时间长度。-对此,日本学者板仓(Itakura)将动态规划算法转载 2021-04-08 16:13:01 · 20535 阅读 · 5 评论