论文Query2Label: A Simple Transformer Way to Multi-Label Classification

最新推荐文章于 2024-10-03 23:00:32 发布

江木123

最新推荐文章于 2024-10-03 23:00:32 发布

阅读量966

点赞数 17

分类专栏：论文笔记文章标签： transformer 深度学习人工智能

本文链接：https://blog.csdn.net/qq_40938217/article/details/142363051

版权

7 篇文章 1 订阅

订阅专栏

本文将Transformer解码器用于多标签分类，将label embedding作为query，计算与feature
map的cross-attention，取得了SOTA结果。

给定图像x ∈ R（H0×W0×3）作为输入，提取空间特征F0∈ R（H×W×d0），我们在第二阶段添加一个线性投影层，将特征从d0维投影到d维，以匹配所需的查询维，并将投影的特征重塑为F∈R（HW×d）

第一阶段得到空间特征，使用标签嵌入查询Q0 ∈ R（K×d），使用多层Transformer解码器从空间特征中对池化相关特征进行交叉关注，其中K为类别的数量
我们使用标准的Transformer架构，它有一个自注意模块、一个交叉注意模块和一个位置前馈网络(FFN)。

其中波浪表示通过添加位置编码修改后的原始向量，Qi(1)和Qi(2)是中间变量。MultiHead(query, key, value)和FFN(x)函数都与标准Transformer解码器[45]中的定义相同，为了简单起见，我们省略了它们的参数
自注意和交叉注意模块都使用相同的MultiHead函数实现。唯一的区别是key和value的来源。

我们采用TResNetL[40]作为我们的主干，因为在GPU上类似的效率约束下，它比标准的ResNet101[25]表现得更好
输入448×448
输出HxWx $d_0$ =14x14x2432
我们在实验中设置d = d0 = 2432，因此第一阶段最终输出特征的大小为14 × 14 × 2432
将提取的特征加入位置编码和整形后，送入第二阶段模块
weight decay为1e-2，学习率设为1e-4，训练80epochs
Transformer编码器主要用于进一步帮助融合全局上下文以获得更好的特征表示，但是为了提高计算效率，可以删除它。在我们的实验中，即使只有一个Transformer解码器层，我们的模型也能很好地工作
大量消融实验证明了其有效性