两种特征图self-Attention-block上算法差异的个人见解

最新推荐文章于 2024-06-19 10:08:10 发布

mahuatengmmp

最新推荐文章于 2024-06-19 10:08:10 发布

阅读量667

点赞数

分类专栏：语义分割文章标签：算法深度学习机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/mahuatengmmp/article/details/120181205

版权

语义分割专栏收录该内容

1 篇文章 0 订阅

订阅专栏

本篇纯个人见解，如有错误请指出

文章素材及资料来源

【极市】李夏-语义分割中的自注意力机制和低秩重建[https://www.bilibili.com/video/BV11E411y7Dr]

流程图

在这里插入图片描述

左为NonLocal,右为A^2，其中N代表特征图中的像素数目，C代表channel数，HW为高宽，我们都知道C的数量一定是远小于N的数量的，K代表种类(也可能不是)
由于矩阵的乘法结合律，这两种算法计算出来的信息是差不多的
对比两个都计算复杂度，左边的复杂度相当于是NNC，右边为NCC

NonLocal

Q与K叉乘
进行了像素之间的Attention
之后再乘上V

A^2

K与V叉乘
对通道之间做Attention，打个比方，每个通道都是一张图，也就是每张图之间进行注意力计算，比如背景图与某个物体的图之间进行计算。
之后Q与其叉乘

总结

两种算法都实现了图中物体之间的attention，但计算复杂度完全不一样
并且第一种算法随着图像像素的提升，复杂程度也会不断增加

比如100x100x256的特征图

第一种复杂度为10000x10000x256=2.56e+10
第二种复杂度为10000x256x256=6.5536e+8

512x512x256的特征图

第一种为1.7e+13
第二种为1.7e+10

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
两种特征图self-Attention-block上算法差异的个人见解

本篇纯个人见解，如有错误请指出文章素材及资料来源【极市】李夏-语义分割中的自注意力机制和低秩重建[https://www.bilibili.com/video/BV11E411y7Dr]流程图左为NonLocal,右为A^2，其中N代表特征图中的像素数目，C代表channel数，HW为高宽，我们都知道C的数量一定是远小于N的数量的，K代表种类由于矩阵的乘法结合律，这两种算法计算出来的信息是差不多的对比两个都计算复杂度，左边的复杂度相当于是NNC，右边为NCCNonLocalQ与K叉乘对
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。