
注意力机制
文章平均质量分 94
记录学习一些关于注意力机制的模块和网络
夏天是冰红茶
目前正在考研,今年希望一次上岸
展开
-
Swin Transformer模型详解
Swin Transformer(Shifted Window Transformer)是一种新颖的视觉Transformer模型,在2021年由微软亚洲研究院提出。这一模型提出了一种基于局部窗口的自注意力机制,显著改善了Vision Transformer(ViT)在处理高分辨率图像时的性能,尤其是在图像分类、物体检测等计算机视觉任务中表现出色。Swin Transformer的最大创新之一是其引入了“平移窗口”机制,克服了传统自注意力方法在大图像处理时计算资源消耗过大的问题。原创 2025-01-09 15:24:11 · 2554 阅读 · 5 评论 -
Vision Transformer模型详解
最近,我在学习Transformer模型在图像领域的应用。图像处理任务一直以来都是深度学习领域的重要研究方向,而传统的卷积神经网络已在许多任务中取得了显著的成绩。然而,近年来,Transformer模型由于其在自然语言处理中的成功,逐渐被引入到计算机视觉领域。Vision Transformer(ViT)是应用Transformer架构于图像分类任务的一个重要突破,它证明了Transformer在视觉任务中的潜力。虽然我这里实现的可以进行图像分类训练,但对于大多数实际应用,我还是推荐使用官方实现的代码模型,原创 2025-01-05 19:00:21 · 2012 阅读 · 0 评论 -
Transformer中Self-Attention以及Multi-Head Attention模块详解(附pytorch实现)
尽管官方的 MultiheadAttention 模块经过优化,具有更高的效率,但手动实现能够帮助大家更好地理解多头注意力机制的各个计算步骤。通过这些实验,我们不仅深入了解了注意力机制的原理,还能在实际应用中灵活使用这些机制,尤其是在图像任务中,Transformer 的强大能力得到了广泛的应用。最近在项目中需要使用Transformer模型来处理图像任务,所以稍微补充一下这部分的知识,本篇主要了解一下Self-Attention以及Multi-Head Attention模块。原创 2025-01-04 22:27:06 · 2182 阅读 · 0 评论 -
CBAM注意力机制详解
CBAM(Convolutional Block Attention Module)是一种卷积神经网络模块,旨在通过引入注意力机制来提升网络的表示能力。CBAM包含两个顺序子模块:通道注意力模块和空间注意力模块。通过在深度网络的每个卷积块中自适应地优化中间特征图,CBAM通过强调通道和空间维度上的有意义特征,实现了对关键信息的关注和不必要信息的抑制。研究表明,CBAM在ImageNet-1K数据集上能够显著提高各种基线网络的准确性,通过grad-CAM可视化验证,CBAM增强的网络能够更准确地关注目标对象。原创 2024-02-29 15:33:37 · 10488 阅读 · 2 评论 -
SE通道注意力机制详解
SE(Squeeze-and-Excitation)模块是一种引入通道注意力机制的方法,旨在让神经网络更加关注对当前任务重要的特征。首先是Squeeze操作,通过聚合跨空间维度(H × W)的特征映射来产生通道描述符,怎么理解呢?假设有一个输入的特征映射,它的维度是H × W × C,对于每个通道,执行全局平均池化操作,具体来说,对于第i个通道,计算该通道上所有空间位置的平均值。通过学习,全连接层得到的通道权重经过一个Sigmoid激活函数,将其范围限制在0到1之间。ResNet与SE-ResNet分类性能原创 2024-01-23 19:47:55 · 6581 阅读 · 0 评论