1. Abstract 2. Model Structure prenet : 多层卷积提特征下采样。 Transformer; speech segmenter : encoder 输出过多层非线性层, 预测character 输出,当预测到space 时证明一个word 结束,多个这种boundary token 合并为一个。 segmenter : 优化ctc loss attention level distillation 3. Discussion 端到端比级联在低延迟的表现更好。