1. 论文摘要
提出了一个包含两阶段训练:masked pretrained encoder(MPE) 和 Joint CTC-Transformer(JCT) 的半监督声学模型,
效果:使用30%WSJ监督数据训练的结果相对于使用50%有监督数据WER 降低17%。增加无监督数据量到960小时,WER 降低22%。
2. 模型介绍
(1)不直接mask 音频数据,而是在网络里做mask.
(2)采用过去frames 和 未来frames 来预测当前被masked frame, 因此重构的frame 包含上下文的特征(?)。
(1) 下采样卷积层:共两层,共下采样4倍?
(2)
h
=
M
a
s
k
(
C
o
n
v
(
C
o
n
v
(
x
)
)
)
h = Mask(Conv(Conv(x)))
h=Mask(Conv(Conv(x)))
e
=
h
+
S
u
b
B
l
o
c
k
(
h
)
e = h+SubBlock(h)
e=h+SubBlock(h)
Loss 计算 $ L_pre = \sum_{i=1}|h_i-e_i|$
将ctc 和Transformer 结合起来可以起到互补的作用,ctc 有强制对齐的特性,transformer容易受噪音的影响造成attention 不准
3. 训练策略
(1)直接finetune: 初始化JCT encoder 为预训练MPE 的encoder 参数,然后直接用有监督数据进行训练。
(2)