HAT: Hardware-Aware Transformers for Efficient Natural Language Background Issue Proposed Approaches Arbitrary Encode-Decoder Attention Heterogeneous Layers Experiments Thoughts Paper PDF Background Transformer被广泛应用于NLP领域,但是它在移动端的部署问题一直都是一个巨大的挑战。例如,处理一个30words的翻译问题,采用Transformer-Big模型,需要执行13G的浮点数运算,在Raspberry上耗时约20秒,这严重制约了Transformer在移动设备上的用户体验。因此提出了针对于硬件特性&#