1.早期的kws系统神经网络结构发展:
1)标准的前馈全连接网络DNN+RELU非线性函数,后接softmax获取k个关键词的输出概率值,用于进行后验概率预处理
2)前期DNN模型的主要缺点是模型很难充分得建模学习输入语音特征上的局部时域与谱之间的相关性。卷积神经网络探索输入特征空间的时域与频谱域之间的相关性,采用2-D卷积+batchnormlization+RELU+(max/average-pooling降维)+(low-rank低维全连接减少参数量并加速训练)dense【在推理阶段batch-normalization的权重可以融合到卷积层中】
batch-normalization:Batch normalization: Accelerating deep network training by reducing internal covariate shift
3)RNN在端到端的序列化任务中拥有很大的优势。RNN 不仅可以充分利用输入信号时域的相关性,还可以通过“门“机制获取长时上下文依赖,RNN将t时刻的输入向量与t-1时刻的输出级联作为RNN的输入,相比CNN权重参数量更少,与CNN较为相似点是RNN结合layernorm可以获取更优性能
layer-normalzation:Layer normalization
4)CRNN(CNN+RNN)充分利用CNN对局部时域空间相关性和RNN层获取全局上下文信息依赖的优点,RNN采用GRU单元,比LSTM can数量更小、更好收敛
GRU:Learning phrase representations using rnn encoder- decoder for statistical machine translation
5)DS-CNN(Depthwise Separable Convolutional Nerual Network)
将3-D卷积的卷积和加操作分成1个2-D卷积和1个1-D卷积,可以大大减少参数量,加深网络层数
mobilenets: Efficient convolutional neural networks for mobile vision applications
基于深度神经网络实现的kws系统
最新推荐文章于 2024-09-30 12:06:46 发布