2018
,
54
(
21
)
1
引言
语音可懂度是语音信号的一种重要属性。目前很
多研究学者提出大量语音可懂度的评价方法来预测背
景噪声条件下的语音可懂度。传统的语音可懂度客观
评
价
方
法
有
语
音
清
晰
度
指
数
SII
(
Speech
Intelligence
Index
)
通过计算每个频带的加权平均值计算语音可懂
度;
基于
LPC
(
Linear
Predictive
Coding
,
LPC
)
客观评价
方法将原输入信号与处理信号之间的包络差异进行评
估;
加权分段信噪比
(
The
frequency-weighted
segmental
SNR
,
fwSNRseg
)
方法通过将纯净语音和含噪语音的激
励谱差值进行指数计算;
归一化协方差方法
(
Normalized
Covariance
Metric
,
NCM
)
方法是基于探头
(输入)
和响
应
(输出)
的包络信号之间的协方差进行可懂度评估
[1]
。
有研究提出可懂度评价方法从小部分被选择的包络中
评估失真是足以预测可懂度分数
[2]
。提取携带有更多可
懂度信息的片段进行评估,
将有效提升客观语音可懂度
方法的性能。研究表明,
仅元音句子
(
辅音被噪声取代
)
与纯辅音句子
(元音被噪声取代)
的可懂度比为
2
∶
1
[3]
。
Tsao
等学者提出利用
RMS
分割的语音片段中高均方根
(
RMS
)
段的语音携带有更多的元音信息
[4]
。
基于
RMS
分频的高可懂度语音评价方法
高
飞,
马建芬,
武正平
GAO
Fei,
MA
Jianfen,
WU
Zhengping
太原理工大学
计算机科学与技术学院,
山西
晋中
030600
College
of
Computer
Science
and
Technology,
Taiyuan
University
of
Technology,
Jinzhong,
Shanxi
030600,
China
GAO
Fei,
MA
Jianfen,
WU
Zhengping.
High
speech
intelligibility
evaluation
method
based
on
RMS
frequency
division.
Computer
Engineering
and
Applications,
2018,
54
(
21
)
:
115-119.
Abstract
:
Speech
intelligibility
is
an
important
attribute
of
speech
signal.
Based
on
Normalization
Covariance
Metric
(
NCM
)
,
the
speech
signal
is
segmented
with
a
relative
Root
Mean
Square
(
RMS
)
threshold,
The
segmentation
intelligibility
evalu-
ation
is
performed
for
speech
segments
above
the
mean
square
value
and
for
speech
segments
below
the
mean
square
value.
At
the
same
time,
this
paper
presents
a
new
intelligibility
evaluation
model,
which
combines
the
relative
contribution
of
the
two
speech
segments
to
the
intelligibility
of
speech,
and
evaluates
the
intelligibility
of
speech.
The
experimental
results
show
that
the
high-mean
speech
segment
has
a
higher
contribution
to
the
intelligibility
than
the
low-mean
square
speech
segment,
and
the
evaluation
results
of
the
two
speech
segments
are
re-combined
with
the
new
model,
and
the
eval-
uation
effect
is
improved
significantly.
Key
words
:
speech
intelligibility;
segmentation
intelligibility
evaluation;
relative
root
mean
square;
evaluation
model
摘
要:
语音可懂度是语音信号的一种重要属性
,
在归一化协方差评价方法
(
NCM
)
的基础之上
,
以相对均方根
(
RMS
)
为阈值对语音信号进行分割,
对高于均方值的语音段和低于均方值的语音段进行了分段可懂度评估,
同时,
提出了一种新的可懂度评价模型,
结合了这两种语音段对语音可懂度的相对贡献,
共同评价语音的可懂度。实验结
果表明,
高均方语音段相对于低均方语音段对可懂度具有更高的贡献,
利用新的模型将这两种语音段的评价结果进
行重新结合,
评价效果得到了显著提升。
关键词:
语音可懂度;
分段可懂度评估;
相对均方根;
评价模型
文献标志码:
A
中图分类号:
TP391
doi
: