计算机视觉技术self-attention最新进展

SIGAI_csdn

于 2018-09-12 17:00:51 发布

阅读量1w

点赞数 9

分类专栏：机器学习人工智能神经计算文章标签：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/SIGAI_CSDN/article/details/82664511

版权

本文探讨了Self-Attention在计算机视觉领域的最新进展，包括Non-local NN、Interaction-aware Attention、CBAM和CDANet。这些方法通过增强特征交互和捕获长范围依赖，提升了模型的表现。Non-local NN通过全局像素对之间的关系权重来捕获长距离依赖，而Interaction-aware Attention引入了PCA损失以促进特征交互。CBAM结合了通道和空间注意力，而CDANet则将Self-Attention应用于图像分割任务。这些模块易于融入现有网络，有望在视觉任务中得到广泛应用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

其它机器学习、深度学习算法的全面系统讲解可以阅读《机器学习-原理、算法与应用》，清华大学出版社，雷明著，由SIGAI公众号作者倾力打造。

Attention注意力，起源于Human visual system（HVS），个人定义的话，应该类似于外界给一个刺激Stimuli，然后HVS会第一时间产生对应的 saliency map，注意力对应的应该就是这个显著性区域。

这其中就涉及很多 bottom-up 及 top-down 的 physiological 原理~总的来说，就是 区域权值学习 问题：

1、Hard-attention，就是0/1问题，哪些区域是被 attentioned，哪些区域不关注

2. Soft-attention，[0,1]间连续分布问题，每个区域被关注的程度高低，用0~1的score表示

Self-attention自注意力，就是 feature map 间的自主学习，分配权重（可以是 spatial，可以是 temporal，也可以是 channel间）

[1] Non-local NN, CVPR2018

FAIR的杰作，主要 inspired by 传统方法用non-local similarity来做图像 denoise

主要思想也很简单，CNN中的 convolution单元每次只关注邻域 kernel size 的区域，就算后期感受野越来越大，终究还是局部区域的运算，这样就忽略了全局其他片区（比如很远的像素）对当前区域的贡献。

所以 non-local blocks 要做的是，捕获这种 long-range 关系：对于2D图像，就是图像中任何像素对当前像素的关系权值；对于3D视频，就是所有帧中的所有像素，对当前帧的像素的关系权值。

网络框架图也是简单粗暴：

Non-local block[1]

文中有谈及多种实现方式，在这里简单说说在DL框架中最好实现的 Matmul 方式：

最低0.47元/天解锁文章

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。