前言
本文主要介绍声音的一些特性,以及相关的一些理论知识,作为后续学习语音处理的预备知识。本文主要从声音的本质、特性、以及延申的一些相关概念对声音进行简单的介绍。
声音是什么
物理学:
- 声波, 是由振动物体产生, 并在媒介中传播。声波可以理解为介质偏离平衡态的 小扰动的传播。这个传播过程只是能量的传递过程,而不发生质量的传递。
生物学:
- 是指声波作用于听觉器官所引起的一种主观感觉。
声音的特性
声音物理特性:
- 频率
- 强度
- 声谱(频谱)
人耳主观感觉:
- 音调
- 响度
- 音色
音调主要又频率决定,频率高人耳听到的音调就高,反之亦然;强度则决定人耳听到的响度,强度越大,响度就越大,强度小,响度也小,不过在高频和低频段,强度也会影响音调;音色又声谱中的泛音所决定。泛音是基波频率的整数倍。
一般用速度、周期、波长、频率、振幅和频宽等特性去描述一段声音。
声音的速席
- 与媒介的温度和密度有关
- 空气中的速度 = 331.4 + 0.6 × T ( ∘ C ) m / s =331.4+0.6 \times \mathrm{T}\left({ }^{\circ} \mathrm{C}\right) \mathrm{m} / \mathrm{s} =331.4+0.6×T(∘C)m/s
周期(T): 完成往復運動一次所需的時間。 单位:S ;
声压是大气压受到声波扰动后产生的变化,即为大气压强的余压,它相当于在大气压强上的叠加一个声波扰动引起的压强变化。由于声压的测量比较容易实现,通过声压的测量也可以间接求得质点速度等其它物理量,所以声学中常用这个物理量来描述声波,
声压
(
p
)
(p)
(p)的平方=声强
(
I
)
(I)
(I)
×
\times
× 介质密度 (
ρ
\rho
ρ )
×
\times
× 声速 ( C)
其中, 声强单位是:
W
/
m
2
W/m^2
W/m2 ,密度单位:
k
g
/
m
3
\mathrm{kg} / \mathrm{m} ^3
kg/m3, 声速:
m
/
s
\mathrm{m} / \mathrm{s}
m/s
频率 ( F \mathrm{F} F ) : 周期的倒数即 f = 1 / T \mathrm{f}=1 / \mathrm{T} \quad f=1/T 单位: H z \mathrm{Hz} Hz;
波长 ( λ ) (\lambda) (λ) : 指沿着波的传播方向,在波的图形中相对平衡位置的位移时刻相同的相邻的两个质点之间的距离。 V = λ f \mathrm{V}=\lambda \mathrm{f} V=λf 单位: m \mathrm{m} m;
纯音: 纯音指声压的时间波形为正弦函数的声音;
复合音: 是由频率不同、振幅不同和相位不同的正弦波叠加形成的,就是说任何复杂的复合声都可以通过傅里叶级数将其分解为多个不同正弦函数合成的声音;
带宽: 通常指音頻信号所占据的频带宽度;
频响范围,全称是频率响应范围,也叫频率特性。频率响应是指在振幅允许的范围内音响系统能够重放的频率范围,以及在此范围内信号的变化量称为频率响应。
例如:
- 人耳的听力范围: 20 H z − 20 K H z 20 \mathrm{~Hz}-20 \mathrm{KHz} 20 Hz−20KHz
- 模拟电话系统: 300 H z − 3.4 K H z 300 \mathrm{~Hz}-3.4 \mathrm{KHz} 300 Hz−3.4KHz
- 宽带 VoIP ( G 722 ) : 50 H z − 7 K H z \operatorname{VoIP}(\mathrm{G} 722): 50 \mathrm{~Hz}-7 \mathrm{KHz} VoIP(G722):50 Hz−7KHz
振幅: 是在波动或振云中距离平衡位置或静占位置的最大位移;声音强度由振动幅度的大小决定,以能量来计算称声强,以压力计算表示时称声压。声压的单位是帕斯卡(pa)。
声音的指向性,声音具有指向性,例如人在讲话时, 正面声音最大,背面声音最小。频率越高指向性越强,超过100Hz以上的声音,人耳可以清晰的判别其方向。
什么是dB
d
B
\mathrm{dB}
dB 是一个纯计数单位,即’分贝’。把一个很大的数比较简短地表示出来 。
例如:声压用
P
P
P表示。 人耳的听阈的声压:
P
0
=
2
×
1
0
−
5
P
a
\mathrm{P}_{0}=2 \times 10^{-5} \mathrm{~Pa}
P0=2×10−5 Pa
声压级(sound pressure level)
d
B
S
P
L
=
20
log
(
P
/
P
0
)
\mathrm{dB}\quad \mathrm{SPL}=20 \log \left(\mathrm{P} / \mathrm{P}_{0}\right)
dBSPL=20log(P/P0)
dB的计算
例如:
60
d
B
s
P
L
+
60
d
B
s
P
L
=
120
d
B
s
P
L
60 \mathrm{~d} \mathrm{~B}_{\mathrm{sPL}}+60 \mathrm{~d} \mathrm{~B}_{\mathrm{sPL}}=120 \mathrm{~dB}_{\mathrm{sPL}}
60 d BsPL+60 d BsPL=120 dBsPL ???
60
d
B
=
10
log
(
P
/
P
0
)
60 \mathrm{~dB}=10 \log \left(\mathrm{P} / \mathrm{P}_{0}\right)
60 dB=10log(P/P0)
60
d
B
+
60
d
B
=
10
log
(
2
P
/
P
0
)
=
10
log
(
P
/
P
0
)
+
10
L
o
g
2
=
60
+
3
=
63
d
B
60 \mathrm{~dB}+60 \mathrm{~dB}=10 \log \left(2 \mathrm{P} / \mathrm{P}_{0}\right)=10 \log \left(\mathrm{P} / \mathrm{P}_{0}\right)+10 \mathrm{Log} 2=60+3=63 \mathrm{~dB}
60 dB+60 dB=10log(2P/P0)=10log(P/P0)+10Log2=60+3=63 dB
换句话说, 当音箱的输出功率增加一倍时, 在相同距离上的声压增加 3 个dB,高声压级<高声压级+低声压级
<
<
< 高声压级
+
3
d
B
+3 \mathrm{~dB}
+3 dB,普通人能分辦的最小声压级的变化为
2
−
3
个
d
B
2-3 个 \mathrm{~dB}
2−3个 dB 当声压级增加10个dB时, 人耳感觉音量增加了一倍。
等响曲线
等响曲线指人耳所感知的声音为相同响度时与客观实际声强之间的关系曲线。
平方反比定律
- 声波能量随与声源之间距离的平方而下降
- 距离增大一倍, 声压衰减 6 个dB
音频系统
音频信号是声音的电学形式。
可以提供音频处理和放大的一系列设备的总称:
- 听音效果更好
- 响度增加
- 可以将声音进行远距离传输
输入设备:
- 话筒
- CD/DVD 播放器 A
- 各种乐器
- 电话接口(接收端)
音频处理器:
- Filters, high pass / low pass / high shelf / low shelf / all pass / crossover
- Equalizers, Parametric EQ / Graphic EQ / feedback suppressor
- Dynamics, leveler / CompLimiter / Ducker / Noise Gate /ANC
- P Adaptive Processors, Automatic / MixersFeedback suppressors / Acoustic Echo Cancellers (AEC)
- Mixers, standard Mixer / Matrix Mixer
- Delay
功率放大器:
主要参数:输入灵敏度、谐波失真度、输出功率RMS、信噪比、频率响应、阻尼系数和输出阻抗。如果将系统增益提高3个dB的时候,功放的功率需要加倍,如果将响度提高一倍,功放需要提高10倍。
信噪比:正常声音信号与西信号时噪声信号(功率)的比值。
输出设备:
- 音箱
- 监听耳机
- 录音设备
- 电话接口(发送端)
音箱的主要参数:额定功率、灵敏度、频响、分频、尺寸、扩散角。通常音箱的灵敏度从84-90dB,高于90dB的音箱叫做高灵敏度音箱。当我们设计音响系统的时候,通常将功放的功率设计为音箱额定功率的1.2-3倍之间。
室内声学特性
Critical distance 临界距离
在每一个房间里, 都有这样一个距离(从演讲者的位置开始测量); 直接讲话的强度和反射回来的
讲话强度刚好相等。
Diffraction 衍射 声波在传播时, 如果被一个大小接近于或小于波长
1
/
4
1/4
1/4的物体阻挡,就绕过这个物体,继续进行,低频比高频更容易发生衍射。
Interference 干涉,同一媒介中,两列或多列频率相同、相位相同或相位差固定的声波,在重叠区 某些位置震动加强,另一些位置震动减弱的现象。
Reflection 反射 :入射角=反射角、混响、回声。
经典的塞宾公式:
R
T
60
=
0.161
V
S
α
ˉ
\mathrm{RT}_{60}=\frac{0.161 \mathrm{~V}}{\boldsymbol{S} \bar{\alpha}}
RT60=Sαˉ0.161 V
vー房间容积(立方米)
S
α
ˉ
=
A
−
S \bar{\alpha}=\mathrm{A}-
Sαˉ=A− 室内总吸声量(平米)
适合于当
α
<
0.2
\alpha<0.2
α<0.2 时的情况。
艾润公式:
R
T
60
=
0.161
V
∑
i
=
1
n
S
i
ln
(
1
−
α
ˉ
)
\mathrm{R} T_{60}=\frac{0.161 \mathrm{~V}}{\sum_{i=1}^{n} S_{i} \ln (1-\bar{\alpha})}
RT60=∑i=1nSiln(1−αˉ)0.161 V
适合于所有复杂的情况。
只要2kHz的混响时间小于3.5s, 就不会对语音可懂度造成大的危害。最大的罪魁祸首实际上是经过长声音返回的聚焦声能。
声学增益
PAG = Potential acoustic gain 潜在声学增益 如果传声器、放大器、扬声器处于同一房间内,一个音响系统在达到 持续产生回馈之前所能增加的最大增益。
NAG = Needed Acoustic Gain 所需声学增益 指的是一个音频系统所需要的声场增益。
SNR = Signal-to-Noise Ratio 信噪比 到达标准语言可懂度的主要因素是
S
N
R
≧
25
\mathrm{SNR} \geqq 25
SNR≧25。
EAD = Equivalent Acoustic Distance 等效声学距离 维持语言可懂度, 并在没有任何音响系统辅助的情况下, 听音者与讲话者所能保持的最大距离。
FSM = Feedback Stability Margin 反馈稳定余量 正常工作状态与产生声反馈时的差别。
声音信号级别
- 麦克风级
毫伏级(approx -50 to -30 dB) - 线路级
Consumer line level ( − 10 d B V ) \quad(-10 \mathrm{dBV}) (−10dBV)
Professional line level ( 0 d B u , + 4 d B u ) (0 \mathrm{dBu},+4 \mathrm{dBu}) (0dBu,+4dBu) - 音箱级
十几伏至上百伏,可以直接驱动扬声器
一般大于+4dBu
平衡与非平衡连接
参考
biamp的Kane Zhang的音频基础之声音的特性培训课程。