音频处理2_进阶概念

本节主要对”音乐”和”人声“等概念初步整理,并过度到AI模型的讲解,本节后续会有补充或修改。

1. 名词概念

1.1 音频类

  • 基频(f0)

复杂声音通常由多个频率成分组成(例人声、乐器音)。基频是最低的频率成分,是整个声音波形的周期性重复的基础频率。其他的频率成分是基频的整数倍,称为谐波(harmonics)或泛音。

  • Pitch(Tone) 音高/音调
Pitch: 音高是 音频”频率“的主观感知,有高低的区别。

Tone: 音调, 即声调, 是 音高的变化规律,是声高的局部周期性。

对于乐器音符,基频越高,音高越高。

对于人声,男生基频低,女生基频高。

  • Timbre 音色

在任意时刻,声波振动产生的基频与谐波(基频的倍数),其频率数值和波的成分比例决定了声音的音色。

1.人声:当人说话或唱歌时,声带振动产生的主要频率就是基频(f0)。

男声的基频通常在 85 Hz 到 180 Hz 之间,女声的基频通常在 165 Hz 到 255 Hz 之间。

2.乐器:乐器的声音也是由基频和谐波组成。

3.钢琴-弹奏音符中央C(C4)时,不仅会听到C4的基频,还会隐约听到其谐波,不同钢琴的音色是丰富和复杂的,每个音符包含了基频率及其谐波。

每个音符频率基于十二平均律调音,即相邻音符的频率比是固定的 \sqrt[12]{2}(约1.05946)。同时:

 -钢琴中央C(C4)的基频约:261.63 Hz
 -二阶谐波:523.26 Hz(1个八度上,即C5)
 -三阶谐波:784.89 Hz(接近G5,因与纯音频率有少许偏差)
 -四阶谐波:1046.52 Hz(两个八度上,即C6)
 -五阶谐波:1307.15 Hz(接近E6)
 -六阶谐波:1569.78 Hz(接近G6)

4.吉他- 弦在振动时,产生的基频是 440 Hz(即 A4 音),同时还会有 880 Hz、1320 Hz 等谐波。

1.2 语音类

首先要分清: 语音、语言、语义

  • 语音

语言的外部形式,是人的发音器官震动发出的声波。

  • 语言

是 人类 交流的表达方式,也是文化的载体,可以表达 思想 和感情等。

  • 语义

即 “语言的意义” 包含

  1. 思想, 即“理性意义”,“逻辑意义”。
  1. 情感,即“非理性意义”,包括主观情绪、态度及语体风格等

.

  • Phoneme 音素
1.Vowels(元音音素):通过声带振动从声道发出的声音,发音时口腔内没有明显的气流阻碍。
不同的元音主要通过舌头的位置(高低、前后)和嘴唇的形状来区分。
例如,英语中的元音 /i/(如 "see" 中的音)与 /u/(如 "food" 中的音)就是通过舌头和嘴唇的位置差异来区分的。
2.Consonants(辅音音素):辅音是通过在声道中产生气流阻碍来发出声音。这种阻碍可以是完全的阻塞(如 /t/)或者部分的(如 /f/)。
辅音音素分类通常基于三个主要的特征:发音位置(如双唇、齿龈等)、发音方式(如爆破音、摩擦音等)和声带振动情况(清音和浊音)。

- Syllable 音节

音节(Syllable)是语音中可感知的最小单位,一个音节由一个或多个音素(phonemes)组成。音节决定语言节奏和韵律。音节是词汇构建,在诗歌、歌曲和朗读中,音节的数目和分布对韵律和节奏有很大影响。

* 最小的发音单位:

通常包含一个元音(vowel)或元音音素作为核心,这个核心被称为音节核(syllable nucleus)。在一些语言中,音节还可以包含一个或多个辅音(consonants)作为音节的边界(syllable margins)。

* 组成:

    * 声母(Onset):音节的开头部分,通常是一个或多个辅音。
    * 韵母(Rhyme):音节的后半部分,由音节核和音节尾组成。
    * 音节核(Nucleus):通常是一个元音,是音节的最重要部分,决定了音节的响亮度。
    * 音节尾(Coda):紧随音节核的部分,通常是一个或多个辅音。

在一些语言中,音节可以没有声母(如英语中的单词 “eye”),或者没有音节尾(如 “go”)。

* 音节的种类:

    * 开放音节(Open Syllable):以元音结束,如 "no"。
    * 闭合音节(Closed Syllable):以辅音结束,如 "cat"。
    * 简单音节(Simple Syllable):只有一个元音或辅音和元音的组合,如 "me"。
    * 复杂音节(Complex Syllable):包含多个辅音和元音的组合,如 "strength"。

- Prosody 韵律

韵律涵盖语言的节奏、音高、强度、语调和音长等超音段(suprasegmental features)音质特征。包括音节和音素的组合,及更长的语音结构。用于分析表达情感、意义和语法结构。

韵律的组成:

  1.节奏(Rhythm):
    * 节奏是指语言中音节或词汇的时长和间隔的模式。节奏可以通过语音中重读和非重读音节的排列以及音节的时长来体现。
    * 英语是一个重音时间语言(stress-timed language),即重读音节之间的时间间隔大致相等。
       而西班牙语则是一个音节时间语言(syllable-timed language),即每个音节的时间间隔大致相等。

   2.重音(Stress):
    * 重音是指在某个音节或词汇上加重发音。重音可以改变单词或句子的意义(如“record”作为名词和动词在英语中的重音位置不同)。
    * 重音在不同语言中的分布和功能有所不同。例如,法语的重音通常出现在词的最后一个音节,而英语的重音可以出现在词的任何位置。

   3.语调(Intonation):
    * 语调是指在句子层面上音高(Pitch)的整体变化模式。语调可以表示疑问、陈述、命令等语气,还可以用来区分句子结构
      (如在英语中,升调通常用于是非疑问句,降调用于陈述句)。
    * 语调还可以用来表达情感,如高昂的语调可能表示兴奋或惊讶,而平稳的语调可能表示平静或冷静。
    * 汉语是一种声调语言,每个音节的音高模式(声调)直接决定词义。
       例如,“妈(mā)”、“麻(má)”、“马(mǎ)”和“骂(mà)”因声调不同而表示不同的意思。

   4.音长(Duration):
    * 音长是指音素或音节的发音时长。音长的变化可以影响语言的节奏和韵律,有时还可以改变词汇的意义(如在日语中,音长变化可以区分词义)。

.

  • 音韵(Phonology)

音韵关注音素及其组合和变化规律,是语言的音段层面(segmental level)的特征。关注音素及其组合规则、音位变体、音节结构、音韵模式等。它揭示了语言中如何利用声音来传达意义的深层次结构,并与韵律(Prosody)等超音段特征紧密相关。

1.3 人声类

  • 辅音

发音时声带不振动的辅音,辅音的产生主要依靠气流在口腔或喉部的阻碍或摩擦。辅音可以分为清辅音(Voiceless consonant )和浊辅音两大类。

清辅音是指在发音时声带不振动的辅音

浊辅音则是指在发音时声带振动的辅音,振动为浊音提供了音色和共振。

  1. 清辅音的例子:
        * /p/:如 "pin"
        * /t/:如 "top"
        * /k/:如 "cat"
        * /s/:如 "sit"
        * /ʃ/:如 "ship"
        * /f/:如 "fine"
  1. 浊辅音的例子:
        * /b/:如 "bat"
        * /d/:如 "dog"
        * /g/:如 "go"
        * /z/:如 "zip"
        * /v/:如 "vet"
        * /ð/:如 "this"

3. 发音区别:

清辅音与浊辅音的发音方式相似,区别在于声带的振动状态。例如,/p/ 和 /b/ 在舌位和唇音的制约下发音的过程相似,但/b/ 是浊辅音,其振动声带,而/p/ 是清辅音,不声带振动。

  1. 语言中的应用:

英语中清辅音和浊辅音之间可区分词义,例如 “pin” 和 “bin” 的区别就在于/p/ 和/b/ 的区别。

  • 齿音

主要是: zhi-chi-shi

上下牙齿较近时,发音气流过长造成的刺耳声音

发音快速过度 或 上下牙齿保持距离

2. 主流任务

2.1 文本生成语音(TTS)

  • concatenative TTS

    从单个说话者那里录制一个非常大的简短语音片段数据库,然后重新组合拼接成完整的话语。

  • parametric TTS

    生成数据所需的所有信息都存储在模型的参数中(声码器),语音的内容和特征可以通过模型的输入进行控制。如隐马尔可夫模型(HMM-based Speech Synthesis),深度神经网络等。

2.2 语音转换(VC)

  • VC(Voice Conversion)即变声,从一个人的声音,转换到另一个人

  • SVC(Singing Voice Conversion), VC子任务,即歌声转换

3. 模型结构

3.1 结构总览

当前模型结构都可以归纳为自编码器结构(auto-encoder),即【编码器-解码器】结构,部分模型只有编码器,或只有解码器。

  • 编码器提取并压缩特征

  • 解码器根据低维特征,生成目标内容

输入语音
	│ 
      ▼
─────
特征提取 (降维-下采样得到低纬度特征,如潜空间向量、梅儿谱等)
	│ 
      ▼	  【编码器-特征提取 模型】
─────
特征对齐   (输入特征 和 目标特征对齐, 是  输入特征 和 目标特征 融合的 关键)【融合-对齐 模型】
─────	
	│ 	   【解码器-声码器-生成模型】
      ▼
特征表征    (将融合的特征 升维-上采样,输出目标语音)
─────
	│ 
      ▼
输出语音

3.2 主流模型

主流TTS和VC模型都是自编码器结构

TTS 模型重点在编码器,该编码器提取声音的语义特征,以匹配文本

VC模型重点在解码器,也叫生码器,用于生成转换后的变声语音

  • So-VITS-SVC 和 RVC

    包含 Hubert 编码器 和 VITs变声模型, 以及HifiGAN

  • Shallow Diffusion Mechanism (DiffSinger)

    包含 隐空间扩散模型增强的HifiGAN

  • Neural Source Filter (NSF-HiFiGAN)

     > 包含 NSF的HifiGAN
    

Reference

  • https://medium.com/qosmo-lab/state-of-the-art-singing-voice-conversion-methods-12f01b35405b

后续内容可以关注公众号 “迪AI”

  • 24
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
"Atlab数字信号处理85个实用案例精讲—入门到进阶" 是一本非常实用的书籍,它涵盖了数字信号处理领域的85个案例,从初级到高级知识都有所涉及。 首先,这本书为初学者提供了数字信号处理的入门知识。它首先介绍了数字信号处理的基本概念和原理,让读者对该领域有一个初步了解。然后,针对不同的应用场景,书中详细介绍了常用的数字信号处理方法和技术,如滤波器设计、频谱分析、采样和重构等。这些案例涵盖了语音、图像、音频等多个领域,使读者可以在实际应用中学习和理解数字信号处理的基本原理。 其次,这本书也适合已经掌握一定基础的读者进一步深入学习。书中不仅介绍了更高级的数字信号处理方法,如小波变换、时频分析等,还讨论了一些具体的研究领域,如信号压缩、图像去噪等。这些案例不仅加深了读者对数字信号处理原理的理解,还帮助读者提高实际应用的能力。 最后,这本书注重实践,并提供了大量的实例和代码。每个案例都附有详细的说明和实现步骤,读者可以通过实践来巩固所学知识。此外,书中还提供了相关的数据集和工具,使读者能够更好地进行实验和验证。 总之,"Atlab数字信号处理85个实用案例精讲—入门到进阶" 是一本适合初学者和进阶学习者的实用书籍,它全面介绍了数字信号处理的基本概念、常用方法和高级技术,通过实例和代码帮助读者在实际应用中提升自己的数字信号处理能力。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值