<span style="font-size:32px;">public class SpeechClassifier extends AbstractVoiceActivityDetector
经过本类处理后的数据流中含数的为:SpeechClassifiedData(语音和非语音),DataStartSignal信号和DataEndSignal信号。
本类的作用就是把把音频信号分类成语音和非语音信号。实现了端点检测的第一步。
作用:在一定程度上实现了由Bent Schmidt Nielsen 发明的端点检测。
这个端点检测由三个主要步骤组成。把音频分成语音和非语音两类,在语音的两端插入SPEECH_START和SPEECH_END信号。移除非语音区域。
第一步,是使用Bent Schmidt Nielsen算法,把音频分类成语音和非语音。每次当音频数据输入后,使用当前的音频信号水平对平均信号水平和背景噪声水平进行更新。如果平均的信号水平比背景噪声水平大于(在configurable中)一个确定的门限值,则当前音频被标记为语音。否则被标记为非语音。
第二步和第三步在SpeechMarker和NonSpeechDataFilter类中实现。
本类的属性:
@S4Integer(defaultValue = 10)
public static final String PROP_FRAME_LENGTH_MS = "frameLengthInMs";端点检测帧的长度,以毫秒计算,一般为10ms。
@S4Double(defaultValue = 0)
public static final String PROP_MIN_SIGNAL = "minSignal";用来更新背景噪声信号水平的最小的信号水平。默认为0.
@S4Double(defaultValue =
SpeechClassifier API 与端点检测
最新推荐文章于 2020-03-09 16:16:36 发布