论文阅读《Deep Semantic Dictionary Learning for Multi-label Image Classification》

最新推荐文章于 2023-01-31 19:23:02 发布

高德文

最新推荐文章于 2023-01-31 19:23:02 发布

阅读量771

点赞数 1

分类专栏：论文阅读文章标签：深度学习计算机视觉

本文链接：https://blog.csdn.net/lzh666hhh/article/details/119736085

版权

3 篇文章 0 订阅

订阅专栏

动机

Overview。该模型将多标签图像分类视为一个特质字典表示问题，利用类别的word embedding来生成语义词典，并将label embedding作为表示给定样本视觉特征的系数。
大体分为三个模块：特征学习模块、语义词典生成模块和视觉特征表示模块。

下面具体来看每一个模块。
特征学习模块
使用在ImageNet上预训练的ResNet101作为backbone。从最终的卷积层得到2048x14x14维的特征图。用全局最大池化获得2048维的全局特征f。输入图像被随机裁剪并调整为448x448大小。随机水平翻转用来进行数据增强。

-语义字典生成模块
使用自动编码器来非线性地完成字典的生成。NLP里大量的研究表明，自动编码器可以很好地利用语义空间，通过双向变换来缓解模型的过度拟合。

-视觉特征表示模块：利用学习到的语义词典来表示视觉特征

DSDL与传统的字典学习方法有很大的不同，传统的字典学习方式通常是过完备的（c>d)，这篇论文里的字典是欠完备的（c<d）。
总体的目标函数与算法如下。算法整体包含了系数更新和语义词典更新两个阶段，在正向和反向传播
多标签图像分类

在这里插入图片描述

在这里插入图片描述

概况一下整篇论文。
提出了一种端到端的深度语义词典学习方法。DSDL采用字典学习技术，利用并协调所有涉及的空间，包括标签空间、语义空间和视觉空间，通过生成语义词典，将视觉特征的重构作为词典查询任务，得到归一化的表示系数作为标签的发生概率。

关注