YoloV8改进策略:SwiftFormer,全网首发,独家改进的高效加性注意力用于实时移动视觉应用的模型,重构YoloV8
近年来,Transformer模型在各种视觉应用中显示出了显著的成功,如分类[9, 10, 23, 24, 44]、检测[2, 28, 33, 58, 61]和分割[4, 40]。然而,由于这些模型的固有复杂性,将这些模型部署到资源有限的移动设备上进行实时应用仍然具有挑战性[20, 29]。具体来说,视觉Transformer(ViTs)依赖于全局自注意力,而全局自注意力相对于输入图像分辨率具有二次复杂性,使得在低功耗移动设备上的部署不切实际[31]。
复制链接