YoloV8改进策略：注意力篇|Block改进|附结构图|自研基于xLSTM的注意力（全网首发）

AI智韵

已于 2024-06-25 05:18:14 修改

阅读量1k

点赞数 7

分类专栏： YoloV8最新改进手册——高阶篇 2024年YoloV8改进创新指南文章标签： YOLO

于 2024-06-23 21:45:09 首次发布

不能复制，转发

本文链接：https://blog.csdn.net/m0_47867638/article/details/139906890

版权

YoloV8最新改进手册——高阶篇同时被 2 个专栏收录

143 篇文章 192 订阅 ¥299.90 ¥99.00

订阅专栏

2024年YoloV8改进创新指南

86 篇文章 11 订阅 ¥159.90 ¥99.00

订阅专栏

摘要

本文使用Vision-LSTM的xLSTM改进YoloV8的Bottleneck结构，增加自研的注意力机制，取得了不错的得分。如果大家想发顶会，或者比较好的期刊，可以优先考虑！

论文：《Vision-LSTM: xLSTM 作为通用视觉主干》

尽管Transformer最初是为自然语言处理引入的，但它现在已经被广泛用作计算机视觉中的通用主干结构。最近，长短期记忆（LSTM）已被扩展为一种可扩展且性能优越的架构——xLSTM，它通过指数门控和可并行化的矩阵内存结构克服了LSTM长期以来存在的限制。在本报告中，我们介绍了Vision-LSTM（ViL），它是将xLSTM构建块应用于计算机视觉的一种适配。ViL由一系列xLSTM块组成，其中奇数块从上到下处理补丁标记的序列，而偶数块则从下到上处理。实验表明，ViL有望作为计算机视觉架构的新通用主干进一步部署。

项目页面: https://nx-ai.github.io/vision-1stm/

1、引言

语言建模架构，如Transformer [39,1,33] 或最近的状态空间模型（State Space Models） [16, 17] 如Mamba [15]，通常被适应到计算机视觉领域，以利用其强大的建模能力。然而，在自然语言处理中，输入句子通常通过离散词汇表编码为表示单词或常见子词的标记（tokens）。为了将图像编码为一组标记，Vision Transformer（ViT） [13] 提出将输入图像划分为非重叠的块&#x

了解本专栏

关注

7
点赞
踩
6

收藏

觉得还不错? 一键收藏
打赏
0
评论
YoloV8改进策略：注意力篇|Block改进|附结构图|自研基于xLSTM的注意力（全网首发）

本文使用Vision-LSTM的xLSTM改进YoloV8的Bottleneck结构，增加自研的注意力机制，取得了不错的得分。如果大家想发顶会，或者比较好的期刊，可以优先考虑！
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

AI智韵 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。