回声消除性能评判指标
为了反映回声消除中自适应滤波器
r
1
(
n
)
r_1(n)
r1(n)对真实回声路径r(n)的逼近程度。系统距离,定义为:
D
I
S
T
(
n
)
=
10
l
g
∣
∣
r
1
(
n
)
−
r
(
n
)
∣
∣
2
∣
∣
r
(
n
)
∣
∣
2
DIST(n) = 10lg \frac{||r_1(n)-r(n)||^2}{||r(n)||^2}
DIST(n)=10lg∣∣r(n)∣∣2∣∣r1(n)−r(n)∣∣2
其中DIST值越低,表明自适应滤波器的收敛性能越好
为了衡量回声消除效果,因为单讲和双讲场景对输出信号e(n)要求不一样,只有近端单讲时要求e(n)与麦克风采集信号d(n)尽量一致,只有远端单讲时需要对e(n) 尽量抑制,双讲时需要保持近端语音尽量一致同时抑制回声,所以我们对单讲双讲部分需要使用不同指标进行评价。
1,ERLE(Echo Return Loss Enhancement,回声返回衰减增益):
E
R
L
E
=
10
l
g
E
[
d
2
(
n
)
]
E
[
e
2
(
n
)
]
ERLE = 10lg \frac{E[d^2(n)]}{E[e^2(n)]}
ERLE=10lgE[e2(n)]E[d2(n)]
ERLE值越大,则表明回声抵消效果越好。由于双讲或只有近端单讲时,e(n)中包含近端语音,导致很多情况下e(n)的能量远大于回声y(n)的能量,从而ERLE为负值,同时也无法衡量回声部分的消除情况。
对于优秀的回声消除器,返回衰减增益必须不低于6dB.
2,SuppFactor(能量衰落因子):
AEC后输出能量与对应麦克风信号能量的比值。
S
u
p
p
F
a
c
t
o
r
=
E
[
∣
e
∣
2
(
n
)
]
E
[
∣
x
∣
2
(
n
)
]
SuppFactor = \frac{E[|e|^2(n)]}{E[|x|^2(n)]}
SuppFactor=E[∣x∣2(n)]E[∣e∣2(n)]
3,cohde(输出信号e(n)与麦克风信号d(n)的频谱相关性):
该值越接近1,说明输出信号中保留的麦克风信号频谱越多。考虑到麦克风信号d(n)主要由回声信号y(n)和近端语音v(n)构成,因此只有近端单讲情况下cohde的值才能接近1,双讲情况下cohde的值在0.5~0.9(取决于回声信号在该帧的占比),当cohde接近0时说明输出信号几乎不包含任何近端语音和回声的频谱成分。其计算公式如下:
S
d
=
D
(
ω
)
D
∗
(
ω
)
S_d = D(\omega)D*(\omega)
Sd=D(ω)D∗(ω)
S e = E ( ω ) E ∗ ( ω ) S_e = E(\omega)E*(\omega) Se=E(ω)E∗(ω)
S d e = D ( ω ) E ∗ ( ω ) S_{de} = D(\omega)E*(\omega) Sde=D(ω)E∗(ω)
C o h d e = ∣ S d e ∣ 2 ∣ S d ∗ S e ∣ Cohde=\frac{|S_{de}|^2}{|S_d*S_e|} Cohde=∣Sd∗Se∣∣Sde∣2
4,cohxe(输出信号e(n)与远端参考信号x(n)的频谱相关性):
该值越接近0,说明输出信号中残留的远端参考信号频谱越少,回声消除越彻底,其计算公式如下:
S
x
=
X
(
ω
)
X
∗
(
ω
)
S_x = X(\omega)X*(\omega)
Sx=X(ω)X∗(ω)
S e = E ( ω ) E ∗ ( ω ) S_e = E(\omega)E*(\omega) Se=E(ω)E∗(ω)
S x e = X ( ω ) E ∗ ( ω ) S_{xe} = X(\omega)E*(\omega) Sxe=X(ω)E∗(ω)
C o h x e = ∣ S x e ∣ 2 ∣ S x ∗ S e ∣ Cohxe=\frac{|S_{xe}|^2}{|S_x*S_e|} Cohxe=∣Sx∗Se∣∣Sxe∣2
不同通话状态对应的参数指标:
1,近端单讲(最大程度保持输出与麦克风信号一致):
cohde:越接近1说明输出与麦克风信号越相似,越接近0说明两者差异越大,近端单讲时理想值为1。
cohxe:越接近1说明输出与远端参考信号越相似,越接近0说明两者差异越大,即残留的远端参考信号频谱成分越少,理想值为0。
SuppFactor:越接近1说明输出与麦克风信号的能量越接近,越接近0说明AEC造成能量衰落越严重,近端单讲时理想值为1。
2. 远端单讲(最大程度抑制回声):
ERLE:值越大越好,则表明残留回声的能量相对值越小,回声抵消效果越好。
cohde:越接近1说明输出与麦克风信号越相似,越接近0说明两者差异越大,远端单讲时理想值为0。
cohxe:越接近1说明输出与远端参考信号越相似,越接近0说明两者差异越大,即残留的远端参考信号频谱成分越少,理想值为0。
SuppFactor:越接近1说明输出与麦克风信号的能量越接近,越接近0说明AEC造成能量衰落越严重,远端单讲时理想值为0。
3. 双讲(尽量抑制回声同时保留近端语音)
cohde:越接近1说明输出与麦克风信号越相似,保留的近端语音频谱成分也越多;越接近0说明两者差异越大,保留的近端语音频谱成分也越少,双讲时理想值为0.5~0.9(取决于回声信号在该帧的占比)。
cohxe:越接近1说明输出与远端参考信号越相似,越接近0说明两者差异越大,即残留的远端参考信号频谱成分越少,双讲时理想值为0。
SuppFactor:越接近1说明输出与麦克风信号的能量越接近,越接近0说明AEC造成能量衰落越严重,双讲时理想值为1。