自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

Barbara‘s Blog

多多指教

  • 博客(117)
  • 收藏
  • 关注

转载 单因素方差分析

单因素方差分析(one way ANOVA,也称F检验),是用来研究一个控制变量的不同水平是否对观测变量产生了显著影响。

2024-08-21 17:17:14 248

原创 大型语言模型入门

能做“文字接龙”的模型,其实就是语言模型。

2024-08-01 21:56:11 914

原创 通俗易懂生成式人工智能(Generative AI)

生成式人工智能就是让机器产生复杂的、有结构的物件,如:文本、语音、图像等。而这些物件的在计算机中的表现就是数字,如文本就是一堆文字,文字编码成数字;语音就是一堆采样点;图像就是一堆像素点,这些都是数字。

2024-07-30 17:44:38 575

原创 语流音变、连续变调、协同发音、音位变体、语流轻声

从语音学、语言学、音系学等角度分析普通话的声调时,我们常常会遇到语流音变、连续变调、协同发音、音位变体等名字,这些专业名词的含义都有什么区别与联系呢?了解这些术语有助于深入理解汉语普通话的语音系统,对于学习者掌握正确的发音和语音学研究都非常重要。(本文会继续补充更新。

2024-06-27 21:18:46 927

原创 语音质量评价方法之MOS

在语音增强、语音合成、语音转换、声音转换、语音克隆、语音修复等等领域,常常要对输出的语音进行评价。对语音的质量评价一般关注两个方面,即主观评价和客观评价。主观评价就是人凭借听觉感受对语音进行打分,客观评价比较广泛,有的是通过计算输出语音与目标语音之间的声学参数之间的差异来衡量输出语音的质量;有的是依靠仪器测试响度、频率响应、灵敏度等指标;有的依靠模型和算法,模拟人工打分。注:这些评价方法并不都是相互独立的,如:F0 MSE、F0RMSE是计算最小均方误差和最小均方根误差。有一定的相似性。

2024-06-17 16:27:21 2439

转载 两个不同频率纯音合成

当两个或多个不同频率的声音波叠加

2024-04-18 10:44:58 236

原创 音频变速python版

语音变速

2024-04-14 22:05:03 2207

转载 音频削波(Audio Clipping)

音频削波,是指在模拟或数字系统中,音频信号被放大到超出最大限制。通常也被称为“过载(Overdrive)”,就像同名的吉他单块一样,这对音质的影响极大,最终出现失真问题,同时,人耳对于这种现象十分敏感。下图展示了发生削波时的情况:比如:采样频率44.1KHz,精度16bit,双声道。用sony麦克风输入电平,衰减电平保持不变的情况下,将麦克风的采集音量分别调至55和100。RtAudio PCM 音量55RtAudio PCM 音量100。

2024-04-13 11:49:46 671

转载 傅里叶变换到小波变换

傅立叶变换是最入门的,也是最先了解的,通过傅立叶变换,了解缺点,改进,慢慢的就成了小波变换。从傅立叶变换、短时傅立叶变换,小波变换等等,还有EMD变换。当然,其中会看到很多的名词,例如,内积,基,归一化正交,投影,Hilbert空间,多分辨率,父小波,母小波,这些不同的名词也是学习小波路上的标志牌。

2024-03-29 17:48:22 242

原创 音频读取之wave和liborsa

wave库基本操作

2024-03-11 22:53:41 763

原创 声强和能量及其praat操作

声强和能量及其praat操作

2024-03-07 20:15:26 1679

原创 Numpy中常用函数np.clip和np.finfo

Numpy中常用函数np.clip和np.finfo

2024-03-07 11:58:26 613

翻译 数据操作之 Normalize / Standardize / Rescale

为什么用、怎么用、什么时候用 Should You Normalize / Standardize / Rescale Your Data?

2024-03-06 21:56:16 590

原创 生成模型之扩散模型DDPM

Diffusion model

2023-12-20 19:39:09 3661

原创 基频估计之DIO算法

DIO算法提取F0

2023-11-27 22:01:41 1374

原创 音质和音色一样吗?

音质和音色

2023-11-10 18:05:03 873

原创 实验语音学的基本概念

实验语音学

2023-11-09 11:30:33 1026

转载 相似度度量(Similarity Measurement)方法总结

相似性度量方法

2023-09-21 10:44:11 4484 1

转载 最小相位、全通滤波器、群延迟、相位延迟

最小相位系统

2023-09-07 15:33:56 2563

原创 谱包络之pysptk和pyworld库

一个是mel广义谱表示,转换成MLSA声码器能够合成的语音参数,就能直接合成语音;一个是对语音频谱包络进行编码,需要再解码成普参数再合成语音。

2023-08-11 21:49:00 571

原创 语音基石模型Speech Foundation Models

语音自监督学习模型。

2023-07-23 17:24:21 2163

转载 内积inner product、外积outer product、哈达玛积element-wise product

内积inner product、外积outer product、哈达玛积element-wise product

2023-07-12 11:22:56 2437

原创 通俗易懂生成对抗网络GAN原理(二)

GAN背后的理论

2023-07-05 17:30:44 950

转载 浅析声音的数字化过程

音频数字化就是将模拟的(连续的)声音波形数字化(离散化),以便利用数字计算机进行处理的过程,主要包参数括采样频率(Sample Rate)和采样数位/采样精度(Quantizing,也称量化级)两个方面,这二者决定了数字化音频的质量。采样频率是对声音波形每秒钟进采样的次数。根据这种采样方法,采样频率是能够再现声音频率的一倍。人耳听觉的频率上限在20kHz左右,为了保证声音不失真,采样频率应在40kHz左右。经常使用的采样频率有11.025kHz、22.05kHz和44.1kHz等。

2023-07-05 11:37:35 3494 1

原创 语言的韵律(Prosody)

从感知层面,语言韵律就是 音调 和 节奏 的变化所产生的感知模式。

2023-06-28 11:47:20 1434

原创 小波变换之pycwt (python)

PyCWT是用于连续小波谱分析的Python模块,它包括小波变换和FFT算法统计分析的常规操作的集合。此外,该模块还包括交叉小波变换、小波相干性测试和样例脚本。该模块需要NumPy和SciPy,matplotlib模块。

2023-06-16 12:15:33 4290 1

原创 HARVEST基音检测算法

Harvest的独特之处在于可以获得可靠的F0轮廓,减少了将浊音部分错误地识别为清音部分的错误。在第一步中,算法使用多个不同中心频率的带通滤波器提取基本分量,从滤波信号中得到基本F0候选值;然后利用瞬时频率对基本F0候选对象进行细化和评分,然后估计出每帧中的几个F0候选对象。由于基于基本成分提取的逐帧处理对时间局部噪声的鲁棒性较差,在第二步中使用了使用相邻f0的连接算法。这种连接利用了F0等高线在短时间内不会急剧变化的事实。

2023-06-06 21:02:00 836 1

转载 离散余弦变换DCT

通过研究发现,DCT除了具有一般的正交变换性质外,其变换阵的基向量很近似于Toeplitz矩阵的特征向量,后者体现了人类的语言、图像信号的相关特性。因此,在对语音、图像信号变换的确定的变换矩阵正交变换中,DCT变换被认为是一种准最佳变换。在近年颁布的一系列视频压缩编码的国际标准建议中,都把 DCT 作为其中的一个基本处理模块。

2023-05-24 21:25:13 6546

转载 矢量量化(Vector Quantization)

矢量量化技术

2023-05-24 16:32:51 1435

原创 MATLAB之采样函数resamlpe、decimate、downsample

resample函数主要通过有理因子改变采样率,可以实现抽取和内插。比如:y = resample(x,p,q)x是样本信号,p,q都是正整数,p为新的采样频率,q为原来的采样频率;例如:y=resample(x,100,200)这代表x信号原先的采样频率为200Hz,使用resample函数后采样率变为100Hz,则x信号的数据长度会变为原来的一半。反之,就是使x的采样频率升高了。x–时间序列p、q–正整数,指定重采样的长度的倍数。

2023-05-16 15:22:17 7743

原创 Matlab之round、fir1、fftfilt

该格式是利用基于FFT的重叠相加法对数据进行滤波,这种频域滤波技术只对FIR滤波器有效。该函数是通过向量b描述的滤波器对x数据进行滤波。语法形式只有1种:Y = round(X),这里的X可以是数,向量,矩阵,输出对应。设计一个48阶FIR带通滤波器,通带为0.35π≤ω≤0.65π rad/ sample。数字角频率w、模拟角频率Ω之间的关系为 w=Ω/Fs,所以 w = 2。b是FIR滤波器的H(z)的分子多项式系数。Wn — 截止频率, 0≤Wn≤1,Wn=1 对应于采样频率的一半。

2023-05-16 14:40:04 898

原创 基频建模方法总结

语音合成领域需要对基频进行建模,具体到文语转换TTS、语音转换VC、情感语音转换EVC领域等。

2023-05-03 22:36:02 785

原创 基频微扰与振幅微扰Jitter and shimmer

之前只是听过这个词,但是什么是基频抖动,为什么要基频抖动,怎么抖动都还不是很了解,今天总结一下。

2023-04-21 11:50:32 2215

原创 Cheaptrick算法

2015年Morise发表在SPEECH COMMUNICATION期刊上的一篇文章。该算法目的是获得一个准确的、时间稳定的谱包络,采用基频(F0),由F0自适应加窗、功率谱平滑和频率域频谱恢复三部分组成。

2023-04-11 21:50:43 582 2

转载 什么是倍频程?

倍频程,又称倍波程,指在滤波特性曲线上,频率或波长之比为2或1/2的两个频率或波长之间的间隔。对于长波通滤波器,二分之一波长的截波点称倍波程;对于短波通滤波器,二倍波长的截波点称倍波程。倍波所对应的强度的对数与截波所对应的强度的对数之差的称滤波器陡度。对带通滤波器的波长特性曲线,两截波间的波长范围称波带。截波、陡度和波带是描述滤波器件性能常用的三个参数。看来很多领域学科都用到这个专业名词。上面说的是物理电磁波领域用到的。那我们主要关心声学领域的意义。

2023-04-10 11:33:04 7191

转载 插值操作interp(MATLAB&python版)

插值法又称“内插法”,是利用函数f (x)在某区间中已知的若干点的函数值,作出适当的特定函数,在区间的其他点上用这特定函数的值作为函数f (x)的近似值,这种方法称为插值法。如果这特定函数是多项式,就称它为插值多项式。注意:所有的插值方法都要求x是单调的,并且xi不能够超过x的范围。

2023-04-06 16:50:43 9075

原创 音段特征 VS 超音段特征

在语音领域常常见到这两个名词,今天学习一下,随时看到随时补充。

2023-03-30 21:14:11 3302 2

原创 情感语音转换学习

如何描述和表示情感语音?情感可以用分类来描述或维度表示。对于表示情绪的标签,情绪类别方法是表示情绪最直接的方法。最著名的分类方法之一是Ekman的六种基本情绪理论,将情绪分为六个离散的类别,即愤怒、厌恶、恐惧、快乐、悲伤和惊讶,在许多情绪语音合成研究中被采用。然而,这种离散的表示并不寻求模拟人类情感中的微妙差异来控制渲染语音。另一种方法是模拟情绪表达的物理特性。一个例子是罗素的环状模型,由觉醒、效价和支配性定义。

2023-03-30 11:27:27 1468

原创 STRAIGHT之基频提取

基于两组滤波器输出瞬时频率的微分特性,提出了一种针对非平稳,类语音的基频估计方法。从滤波器中心频率映射到输出瞬时频率的特定类型的固定点提供了输入信号的组成正弦分量的频率。当滤波器由等距Gabor函数与基数b样条基函数卷积制成时,固定点的微分特性提供了相应分量的载波噪声比的实际估计值。这些估计值用于选择基本分量,并集成分布在其他谐波分量中的F0信息。

2023-03-23 11:33:42 457

原创 STRAIGHT之 MulticueF0v14算法

STRAIGHT中提出的一种新的使用多个F0线索的基频提取算法。文章发表在2005InterSpeech上新的F0提取器在处理表达性语音时特别有效,其中不规则的声带振动模式更容易被检测到。

2023-03-21 22:49:58 476

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除