FLatten Transformer 简化版Transformer

最新推荐文章于 2024-01-16 21:11:10 发布

skyfengye

最新推荐文章于 2024-01-16 21:11:10 发布

阅读量744

点赞数 1

分类专栏：论文推荐文章标签： transformer 深度学习人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/nijiayan123/article/details/132250443

版权

论文推荐专栏收录该内容

32 篇文章 13 订阅

订阅专栏

今天在找论文时，看到一篇比较新奇的论文，在这里跟大家分享一下，希望可以给一些人提供一些思路。虽然现在Transformer 比较火，在分割上面也应用的比较多，但是我一直不喜欢用，其中一个原因是结构太复杂了，平时我主要用一个sel-attention 感觉都有点复杂了，如果用多头会更复杂。虽然网上有很多人提供了各种解决方法，但是都没有从根本上解决。直到我看到这篇文章。与自然语言不同，视觉图片中的特征数量更多，由于自注意力是平方复杂度，直接进行全局自注意力的计算往往会带来过高的计算量。针对这一问题，先前的工作通常通过减少参与自注意力计算的特征数量的方法来降低计算量。例如，设计稀疏注意力机制（如PVT）或将注意力的计算限制在局部窗口中（如Swin Transformer）。尽管有效，这样的自注意力方法很容易受到计算模式的影响，同时也不可避免地牺牲了自注意力的全局建模能力。

与这些方法不同，线性注意力将Softmax解耦为两个独立的函数，从而能够将注意力的计算顺序从(query·key)·value调整为query·(key·value)，使得总体的计算复杂度降低为线性。然而，目前的线性注意力方法要么性能明显不如Softmax注意力，要么引入了过多的额外计算量导致模型推理速度很慢，难以实际应用。

当然如果直接使用这个版本，网络准确性并没有想象的那么高。后面作者提出个一些解决方法，如果大家想了解这些细节，可以直接看论文。

这篇文章给我最大的感受是：原来不一定要按照传统的样式进行，也可以换一种方法。不能总是一成不变。

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
FLatten Transformer 简化版Transformer

虽然现在Transformer 比较火，在分割上面也应用的比较多，但是我一直不喜欢用，其中一个原因是结构太复杂了，平时我主要用一个sel-attention 感觉都有点复杂了，如果用多头会更复杂。与这些方法不同，线性注意力将Softmax解耦为两个独立的函数，从而能够将注意力的计算顺序从(query·key)·value调整为query·(key·value)，使得总体的计算复杂度降低为线性。的计算往往会带来过高的计算量。针对这一问题，先前的工作通常通过减少参与自注意力计算的特征数量的方法来降低计算量。
复制链接

扫一扫

专栏目录

目录

分类专栏

论文推荐 32篇
ACM 25篇
CG 4篇
DL 45篇
AI 15篇
图像处理 12篇
随笔 19篇

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。