语音基础知识
文章平均质量分 87
BarbaraChow
关注语音 & 语言
展开
-
语音质量评价方法之MOS
在语音增强、语音合成、语音转换、声音转换、语音克隆、语音修复等等领域,常常要对输出的语音进行评价。对语音的质量评价一般关注两个方面,即主观评价和客观评价。主观评价就是人凭借听觉感受对语音进行打分,客观评价比较广泛,有的是通过计算输出语音与目标语音之间的声学参数之间的差异来衡量输出语音的质量;有的是依靠仪器测试响度、频率响应、灵敏度等指标;有的依靠模型和算法,模拟人工打分。注:这些评价方法并不都是相互独立的,如:F0 MSE、F0RMSE是计算最小均方误差和最小均方根误差。有一定的相似性。原创 2024-06-17 16:27:21 · 3499 阅读 · 0 评论 -
两个不同频率纯音合成
当两个或多个不同频率的声音波叠加转载 2024-04-18 10:44:58 · 353 阅读 · 0 评论 -
音频变速python版
语音变速原创 2024-04-14 22:05:03 · 2517 阅读 · 0 评论 -
音频削波(Audio Clipping)
音频削波,是指在模拟或数字系统中,音频信号被放大到超出最大限制。通常也被称为“过载(Overdrive)”,就像同名的吉他单块一样,这对音质的影响极大,最终出现失真问题,同时,人耳对于这种现象十分敏感。下图展示了发生削波时的情况:比如:采样频率44.1KHz,精度16bit,双声道。用sony麦克风输入电平,衰减电平保持不变的情况下,将麦克风的采集音量分别调至55和100。RtAudio PCM 音量55RtAudio PCM 音量100。转载 2024-04-13 11:49:46 · 936 阅读 · 0 评论 -
基频估计之DIO算法
DIO算法提取F0原创 2023-11-27 22:01:41 · 1457 阅读 · 0 评论 -
谱包络之pysptk和pyworld库
一个是mel广义谱表示,转换成MLSA声码器能够合成的语音参数,就能直接合成语音;一个是对语音频谱包络进行编码,需要再解码成普参数再合成语音。原创 2023-08-11 21:49:00 · 605 阅读 · 0 评论 -
语音基石模型Speech Foundation Models
语音自监督学习模型。原创 2023-07-23 17:24:21 · 2538 阅读 · 0 评论 -
浅析声音的数字化过程
音频数字化就是将模拟的(连续的)声音波形数字化(离散化),以便利用数字计算机进行处理的过程,主要包参数括采样频率(Sample Rate)和采样数位/采样精度(Quantizing,也称量化级)两个方面,这二者决定了数字化音频的质量。采样频率是对声音波形每秒钟进采样的次数。根据这种采样方法,采样频率是能够再现声音频率的一倍。人耳听觉的频率上限在20kHz左右,为了保证声音不失真,采样频率应在40kHz左右。经常使用的采样频率有11.025kHz、22.05kHz和44.1kHz等。转载 2023-07-05 11:37:35 · 4094 阅读 · 1 评论 -
转换音频采样率
批量转换音频采样率–用sox在处理音频数据中,常见到16000Hz ,22050Hz, 48000Hz等音频数据,不同的模型需要不同采样率,因此需要批量转换。比如,现有音频,查看采样率:若没有sox,下载地址 https://sourceforge.net/projects/sox/files/sox/sox --i 000030.wav出现下图,要转成22050.方法一:想到librosa里的resample函数:import librosaimport osfrom tqdm原创 2021-06-27 14:44:30 · 1863 阅读 · 0 评论 -
基频检测算法详细总结
基音频率是语音信号的最重要的特征参数之一,基频的复杂之处在于不同的人发出的语音基频可能不同,同一个人说不同的字词时基频可能不同,同一个人在不同的时间说相同的字词时基频也可能不同。通常,基频与发音人声带的长短、薄厚、韧性、劲度和发音习惯等有关系,在很大程度上代表了个人的特征。此外,基频还随着人的性别、年龄不同而有所不同。基频也受说话人情绪,习惯,环境等的影响。一般来说,男性说话者的基音频率较低,而女性说话者和小孩的基音频率相对较高。可见,基频是随发音人、发音内容、发音时间等因素动态变化的。原创 2023-03-01 17:39:34 · 5396 阅读 · 0 评论 -
HARVEST基音检测算法
Harvest的独特之处在于可以获得可靠的F0轮廓,减少了将浊音部分错误地识别为清音部分的错误。在第一步中,算法使用多个不同中心频率的带通滤波器提取基本分量,从滤波信号中得到基本F0候选值;然后利用瞬时频率对基本F0候选对象进行细化和评分,然后估计出每帧中的几个F0候选对象。由于基于基本成分提取的逐帧处理对时间局部噪声的鲁棒性较差,在第二步中使用了使用相邻f0的连接算法。这种连接利用了F0等高线在短时间内不会急剧变化的事实。原创 2023-06-06 21:02:00 · 868 阅读 · 1 评论 -
Jitter and shimmer频率微扰与振幅微扰
之前只是听过这个词,但是什么是基频抖动,为什么要基频抖动,怎么抖动都还不是很了解,今天总结一下。原创 2023-04-21 11:50:32 · 2473 阅读 · 0 评论 -
Cheaptrick算法
2015年Morise发表在SPEECH COMMUNICATION期刊上的一篇文章。该算法目的是获得一个准确的、时间稳定的谱包络,采用基频(F0),由F0自适应加窗、功率谱平滑和频率域频谱恢复三部分组成。原创 2023-04-11 21:50:43 · 601 阅读 · 2 评论 -
什么是倍频程?
倍频程,又称倍波程,指在滤波特性曲线上,频率或波长之比为2或1/2的两个频率或波长之间的间隔。对于长波通滤波器,二分之一波长的截波点称倍波程;对于短波通滤波器,二倍波长的截波点称倍波程。倍波所对应的强度的对数与截波所对应的强度的对数之差的称滤波器陡度。对带通滤波器的波长特性曲线,两截波间的波长范围称波带。截波、陡度和波带是描述滤波器件性能常用的三个参数。看来很多领域学科都用到这个专业名词。上面说的是物理电磁波领域用到的。那我们主要关心声学领域的意义。转载 2023-04-10 11:33:04 · 7999 阅读 · 0 评论 -
STRAIGHT之基频提取
基于两组滤波器输出瞬时频率的微分特性,提出了一种针对非平稳,类语音的基频估计方法。从滤波器中心频率映射到输出瞬时频率的特定类型的固定点提供了输入信号的组成正弦分量的频率。当滤波器由等距Gabor函数与基数b样条基函数卷积制成时,固定点的微分特性提供了相应分量的载波噪声比的实际估计值。这些估计值用于选择基本分量,并集成分布在其他谐波分量中的F0信息。原创 2023-03-23 11:33:42 · 479 阅读 · 0 评论 -
STRAIGHT之 MulticueF0v14算法
STRAIGHT中提出的一种新的使用多个F0线索的基频提取算法。文章发表在2005InterSpeech上新的F0提取器在处理表达性语音时特别有效,其中不规则的声带振动模式更容易被检测到。原创 2023-03-21 22:49:58 · 494 阅读 · 0 评论 -
MELP声码器
这是一款比较老的声码器,是美国1998年指定的美国国防部DoD电信和系统标准,该算法由TI公司和ASP公司联合推出。原创 2023-03-14 13:53:01 · 1920 阅读 · 0 评论 -
非常实用的信号处理库pysptk(python)
pysptk是一款语音信号处理工具包。原创 2022-11-11 22:11:32 · 1305 阅读 · 0 评论 -
python常用信号处理函数之librosa
librosa.feature.mfcc主要学习利用该库提取mfcct特征,望各位批评指正。MFCCs (Mel-frequency cepstral coefficients):梅尔倒谱系数librosa.feature.mfcc(y=None, sr=22050, S=None, n_mfcc=20, dct_type=2, norm='ortho', lifter=0, **kwargs输入参数:y: 语音时间序列。np.ndarray [shape=(n,)] or Nonesr:转载 2020-09-01 11:58:27 · 4116 阅读 · 0 评论 -
常用的信号处理函数Scipy之滤波器
scipy滤波器转载 2022-11-11 10:40:53 · 6371 阅读 · 1 评论 -
(超详细)语音信号处理之特征提取
语音信号处理之特征提取要对语音信号进行分析,首先要分析并提取出可表示该语音本质的特征参数。有了特征参数才能利用这些特征参数进行有效的处理。根据提取参数的方法不同,可将语音信号分析分为时域,频域,倒频域,和其他域的分析方法。根据分析方法的不同,可将语音信号分析分为模型分析方法和非模型分析方法。本文主要以第一种分类方法。时域分析方法简单,计算量小,物理意义明确,但由于语音信号最最重要的感知特性在功率谱中,而人耳对相位变化并不敏感,所以频域分析更为重要。通过最基本的特征,后面针对不同的任务演变出了各种特征。原创 2022-09-14 14:28:26 · 31858 阅读 · 14 评论 -
详解STRAIGHT声码器
STRAIGHT ( Speech Transformation and Representation using Adaptive Interpolation of weighted spectrum)即自适应加权谱内插,是一种语音信号分析合成的算法。STRAIGHT 特点:将语音信号解析成相互独立的频谱参数(谱包络)和基频参数(激励部分,语音信息),能够对语音信号基频、时长、增益、语速等参数进行灵活调整。该模型在分析阶段仅针对语音基音频率、平滑功率谱和非周期成分 3 个模型参数进行提取分析原创 2020-11-09 17:34:23 · 2353 阅读 · 0 评论 -
基频,倍频,基波,谐波,基音,泛音
基频(fundamental frequency)自由振荡系统的最低振荡频率,复合波中的最低频率。复合振动或波形(如声波)的第一谐波成分,它具有最低频率,且通常具有最大振幅,亦称“基谐波”,或一次谐波。谐波,从字面解释,谐,有“多部分”的意思,谐和,指多部分协调有致。波,指的是波形(Wave)。合起来形容,就是有很多种波形合成的波形。时域描述,一般用。...转载 2022-08-27 14:44:54 · 14580 阅读 · 0 评论 -
长时平均功率谱
长时平均功率谱是语音的频谱特征之一,能够反映出一段语流中说话人的全部频率分量,以及各频率分量与强度之间的关系,是表征个人语音特性的参量之一,在说话人识别中应用广泛。计算方法:可利用快速傅立叶变换FFT方法算出的每帧的短时频谱,再对整个时间范围内求出的短时谱的平均。...原创 2022-08-11 16:21:55 · 1936 阅读 · 1 评论 -
通俗易懂声学基础
声音是由振动产生的,当物体振动时,会引起周围空气的波动,导致空气粒子间的距离发生疏密的变化,从而引发空气压强的变化,这种变化会传到人的耳膜,再传到人的大脑,人就听到声音了。物理上,声音有四个基本特性:音色、音强、音高、音长。声波是由物体振动产生的,当物体振动时,会引起周围空气的波动,这就是声波。最简单的声波就是正弦波,正弦波发出的声音叫纯音。但日常生活中我们听到的大多不是纯音,而是复合音,也就是多个正弦波的叠加(不同频率和振幅)。声波每秒在空气中传播的距离,单位m/s。声速c受传播介质和温度的影响,常温常原创 2022-07-04 21:24:14 · 6773 阅读 · 1 评论 -
五度字调模型
五度字调模型语音的声调对合成的语音的自然度和可懂度影响甚大,尤其对于声调语言汉语普通话。五毒字调模型之=旨在生成声调所需要的基频。用来合成汉语各方言的语音。参考文献:杨顺安. 五度字调模型在合成汉语语音中的应用[J]. 方言,1987(2),142-147.五度制标调法赵元任在1930年提出。五度音划分:将声调划分为五类,用1-5数字表示:5.高4.半高3.中2.半低1.低一声:阴平55调值( 高平调)发音要点:又高又平、有起点有终点、不要虚。二声:阳平35调值原创 2022-05-29 20:42:38 · 679 阅读 · 0 评论 -
一文看懂Griffin_lim声码器
Griffin_lim算法详解声码器声码器是语音分析和合成的一一种工具,目前主要用来将将声学参数转换成语音波形,即合成。常见的传统声码器有 WORLD, STRAIGHT及其变种等; 还有目前较火的神经网络声码器,如WaveNet,一种可训练的基于深度神经网络的声码器,可生成高质量的语音波形。GL算法Griffin_lim声码器是将语谱图转回波形的一种算法。主要思想为已知幅度谱,未知相位谱,通过迭代生成相位谱,并用已知的幅度谱和计算得出的相位谱,重建语音波形。因为常见的特征MEL-spectrum转载 2022-04-08 18:01:36 · 2242 阅读 · 0 评论 -
python实现时频谱,语谱图,mel语谱倒谱等
python实现时频谱,语谱图,mel语谱倒谱等可以和理论相结合学习:https://blog.csdn.net/qq_36002089/article/details/108378796语音信号是一个非平稳的时变信号,但语音信号是由声门的激励脉冲通过声道形成的,经过声道(人的三腔,咽口鼻)的调制,最后由口唇辐射而出。认为“短时间”(帧长/窗长:10~30ms)内语音信号是平稳时不变的。由此构成了语音信号的“短时分析技术”。帧移一般为帧长一半或1/4。1. 导入所需库,加载语音,定义参数import原创 2022-03-30 15:52:27 · 16104 阅读 · 1 评论 -
声谱图,梅尔语谱,倒谱,梅尔倒谱系数(超详细)
语音特征提取。转载 2020-09-03 11:57:22 · 30260 阅读 · 6 评论 -
梅尔倒谱系数MFCC由浅入深(超详细)
MFCC梅尔倒谱系数(Mel-scale Frequency Cepstral Coefficients)在语音识别(Speech Recognition)和话者识别(Speaker Recognition)方面,最常用到的语音特征就是梅尔倒谱系数(Mel-scale Frequency Cepstral Coefficients,简称MFCC)。根据人耳听觉机理的研究发现,人耳对不同频率的声波有不同的听觉敏感度。从200Hz到5000Hz的语音信号对语音的清晰度影响对大。两个响度不等的声音作用于人耳时,原创 2021-08-31 20:58:41 · 27498 阅读 · 0 评论 -
音色、音高、音强、音长
声音的基本特性:1. 音色、音质一种声音却别于另一种声音的基本特征。影响音色的要素非常多,频谱中的大部分要素都会影响到音色,除此之外,声音的瞬态状况(如音头和音尾),与音源的距离不同导致不同成分的衰减不同,都会影响音色。在这些因素里,对音色影响最大也是最直观的要素就是谐波的包络(共振峰)。两段音调相同,响度相同的声音,如果其频谱看起来差距很大,基本就可以说两者有着不同的音色。2.音调、音高声音的高低,取决于声波的频率。音调是人对声调或者说音高的主观感受。很多人直接把他等同于频率,实际并非如此。音转载 2020-12-04 16:54:05 · 10019 阅读 · 0 评论