CTC,RNA,RNN-T每次只读一个声学特征进来。 而Neural Transducer则是每次读多个声学特征进去,然后通过attention来选择读那些特征。 Neural Transducer的运作方式 累积一定数目的声学特征后, 构成一个window 接下来开始做decode,产生输出。输出的时候只在window的这个小范围内做attention。 这个window应该开多大呢?