文章目录
摘要
本文使用Vision-LSTM的xLSTM改进YoloV8的BackBone结构,增加自研的注意力机制,取得了不错的得分。如果大家想发顶会,或者比较好的期刊,可以优先考虑!
论文:《Vision-LSTM: xLSTM 作为通用视觉主干》
尽管Transformer最初是为自然语言处理引入的,但它现在已经被广泛用作计算机视觉中的通用主干结构。最近,长短期记忆(LSTM)已被扩展为一种可扩展且性能优越的架构——xLSTM,它通过指数门控和可并行化的矩阵内存结构克服了LSTM长期以来存在的限制。在本报告中,我们介绍了Vision-LSTM(ViL),它是将xLSTM构建块应用于计算机视觉的一种适配。ViL由一系列xLSTM块组成,其中奇数块从上到下处理补丁标记的序列,而偶数块则从下到上处理。实验表明,ViL有望作为计算机视觉架构的新通用主干进一步部署。
项目页面: https://nx-ai.github.io/vision-1stm/
1、引言
语言建模架构,如Transformer [39,1,33] 或最近的状态空间模型(State Space Models) [16, 17] 如Mamba [15]&