1.论文摘要
(1)基于问题不可知语音编码器(problem agnostic speech encoder)的改进:在一个卷积encoder 后进阶这多个神经网络worker, 解决自监督问题。
(2)采用了实时语音的distortion 变换,包括加噪和回响。
- 出发点:
首先语音信号比较复杂,1)语音信号需要一个复杂的层级结构来表示不同时间刻度下的相关信息:samples → phonemes → syllables → words → sentences → semantic contents。2) 语音信号本身包含很多变化: 说话人的变换,不同语言,声学环境等。
因此完全的不采用有监督的指导无法学习这种复杂的表征,因此提出了一种多任务学习的方法,每个任务去学习语音信号的一个方面,然后再合并。本文在此基础上再加入了noise 和 回响,增加学到特征的鲁棒性。
2. 论文主体
- speech contamination 方法:
(1)reverberation : 通过将输入信号与通过图像方法得出的一组1300个脉冲响应进行卷积来引入混响。混响时间的范围为0.3-0.9.
(2)add noise: 引入两个数据集的声音,包括固定场景和非固定噪音。
(3)frequency mask: 频率屏蔽是通过用带阻滤波器对时间信号进行滤波来执行的。
这三者对asr任务的表现最好。
- PASE+ encoder
(1) 采用skip connection的操作:
每一个卷积中间层的结果都被线性映射后再做下采样然后添加到最后的表征中。
(2) Quasi-RNN
捕捉长距离依赖但当前步的计算不依赖与过去时间步的结果,可并行计算。
3. worker
worker 的设置主要解决二分类和回归的任务,
-
Regression Tasks
-
Binary Tasks
最大化锚点和正例的互信息,
(1) Local info Max
正例在本句,负例从其他随机句子取,使得模型学习如何辨认说话人。
(2) Global info max
锚点和正例的表征是从同一个sentence 中PASE 得到的长达2s的特征的平均,负例是从其他句子中选取。