音乐处理原理第一章:音乐表示

Fundamentals of Music Processing Audio, Analysis, Algorithms, Applications. Meinard Müller 学习笔记

乐谱表示

符号表示

MIDI表示

模拟按击电子琴状态:每一次按键可以用音符编号,key velocity,通道和时间戳表示。

  • midi音调pitch编号note number:0 ~ 127的数,总共128个音调,表示 C − 1 ∼ G # 9 \mathrm{C^-1 \sim G^{\#}9} C1G#9之间音调。
  • key velocity:0 ~ 127的整数,决定音量大小或声音衰减速度
  • 通道channel:0 ~ 15的整数,音声通道
  • 时间戳timestamp:一个整数,表示要等待多少个时钟脉冲数/滴答数。

MIDI把四分之一音符划分成若干个时钟脉冲数/滴答数,个数记作PPQN(pulses per quarter note, 或者TPQN, ticks per quarter note, 或PPQ, TPQ)。每一MIDI文件头部都要设置PPQN作为接下来MIDI序列计算timestamp标准。PPQN 默认为120,即一个四分之一音符为120个时钟脉冲/滴答数。
MIDI也可以设置一个绝对时间的四分之一音符。例如可以设置0.6秒一个四分之一音符,这样可以换算成一个时钟脉冲/滴答数为5毫秒。还有一个计量单位是BPM(beats per minute),0.6秒一个四分之一音符即为100BPM(一分钟打100下四分之一音符)。

计分表示

MusicXML,每一个音符属性都用一个标签表示,例如表示一个 E b 4 \mathrm{E^b4} Eb4音调:

<note>
  <pitch>
  <step>E</step>
  <alter>-1</alter>
  <octave>4</octave>
  </pitch>
</note>

光学音乐识别

对乐谱电子图片进行扫描识别

音频表示

波和波形

声音本质是气压振动,波形图反映了声音传播时气压相对于平均气压的变化,波峰指声音传播时气压最高点,波谷指声音传播时气压最低点。气压高低即空气分子疏密程度,分子越密集,气压越高。

频率和音调

  • 周期Period
    波是周期运动。在波形图中,从一个波峰到另一个波峰时间记为一个周期。
  • 频率Frequency
    • 频率f = 1 / 周期T,单位Hz
    • 人耳接受频率为20Hz - 20kHz
    • 频率越高,音调越高
  • 振幅Amplitude
    指波峰到均值的差值。(不是波峰和波谷差值)
  • 相位Phase
    波形图在时间0时的值。

把正弦波认为是最基础的声波,正弦波产生的声音叫谐波音(harmonic sound)或纯音(pure tone)。国际标准把440Hz的正弦波记为音调A4
从听觉感知上,如果两个音调频率成2倍数关系,那么这两个音调听起来是相似的。例如A3(220Hz),A4(440Hz),A5(880Hz)三个音听起来很相似。另外人类感觉到A4的认知距离和A4到A5的认知距离是一样的,所以人类对音调感知本质上是对数关系。
结合MIDI的音调编号和十二平均律,可以推算每个音调对应的频率(A4的MIDI编号是69):
F p i t c h ( p ) = 2 ( p − 69 ) / 12 ⋅ 440 H z F_{pitch}(p) = 2^{(p-69)/12} \cdot 440 \mathrm{Hz} Fpitch(p)=2(p69)/12440Hz
每个半音相差频率是一个常数:
F p i t c h ( p + 1 ) F p i t c h ( p ) = 2 12 \frac{F_{pitch}(p+1)}{F_{pitch}(p)} = \sqrt[12]{2} Fpitch(p)Fpitch(p+1)=122
更一般,可以用cent最为划分音程一个基础单位:一个八度划分成1200个cent,即每个半音100个cent。一个cent音调变化太小,经验表明,成年人可以准确识别出25cent的音调差异,受过训练的人甚至可以识别10cent音调差异。
现实世界则是用分音泛音来表示音调。

  • 分音partial
    一整根弦/空气柱的振动作为基音,称第一分音。然后对这个弦/空气柱进行整数划分,二分之一长为第二分音,三分之一长为第三分音,以此类推。
  • 泛音harmonic
    泛音则是各种分音的整数倍
  • 陪音overtone
    除了基音之外的分音
  • 偏差音inharmonicity
    乐器的泛音频率和基本频率差值

例如一个分音/陪音 ω \omega ω的频率为65.2Hz(C2),那么它的泛音列频率为 ω , 2 ω , 3 ω , 4 ω . . . \omega, 2\omega,3\omega,4\omega... ω,2ω,3ω,4ω...等等。其中2次幂倍数的泛音是高八音度: ω \omega ω为C2, 2 ω 2\omega 2ω为C3, 4 ω 4\omega 4ω为C4; 3 ω 3\omega 3ω和G3相似(纯五度),如图:

音调频率cent差值 0 0 +2 0 -14 +2 -31 0 +4 -14 -49 +2 +41 -31 -12 0
音调 C 2 \mathrm{C2} C2 C 3 \mathrm{C3} C3 G 3 \mathrm{G3} G3 C 4 \mathrm{C4} C4 E 4 \mathrm{E4} E4 G 4
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值