原文link
Abstract
Transformer已被广泛用于NLP领域的诸多任务,但是将Transformer应用于图像领域还有很大的探索空间。本文提出一种简洁高效的混合Transformer框架-UTNet,将self-attention与CNN结合在一起用于提升医学图像分割的性能。
UTNet在encoder和decoder部分均引入了self-attention模块,以最小的开销捕获不同尺度的长程依赖关系。
为此,本文提出了一种有效的结合了相对位置信息编码的自注意力机制,可以将自注意力的时间复杂度从O(n^2)降到O(n);并提出了一种新的自注意力解码器,可以从skip connection中恢复encoder中的细粒度特征。
本文的意义在于解决了目前Transformer应用的困境:即需要从大量的训练数据中学习归纳偏执。UTNet中的混合层(