论文相关内容
本文中解决多标记图像分类问题的方法:
本文利用深度卷积神经网络(DCNN)构造了一个多标签图像分类器。我们提出了一个新的目标函数,它由三个部分组成,即、最大间隔目标、最大相关目标和相关熵损失。最大间隔目标明确强制要求正标签的最小分数必须大于预定间隔的负标签的最大分数,这不仅提高了多标签分类器的准确度,而且还简化了阈值确定。最大相关目标可以使DCNN模型学习一个潜在的语义空间,最大限度地提高训练样本的特征向量与其投影到该空间的相应的真实标签向量之间的相关性。为了使DCNN模型的训练误差最小,我们采用了信息论领域的相关损失来代替传统的softmax损失。本文框架可以以端到端的方式训练。
本文主要思想和模型:
本文的最大间隔目标、最大关联目标和最大相关熵损失可以分别通过M、C1和C2、l达到,最后的目标函数如上,lambda为平衡参数。
本文模型基于Alexnet,在其基础上如上图所示的两个辅助层来达到最大关联目标,训练时,首先正向反馈得到相关误差,再通过反向传播算法进行参数的求解,具体为根据最大间隔目标和相关熵损失目标的梯度反向传播误差到fc8,再从fc8反向传播到fc7,再与来自最大关联的梯度传播到fc7的误差流求和向前面继续传播误差,并更新参数,直至达到迭代停止条件。
总结
相关背景:多标签图像分类任务的需要及现有方法的不足。
问题是什么:提升多标签图像分类的性能。
现有解决方案:PRE-1000C、HCP-1000C、CNN-SVM等方法。
作者的核心思想、创新点在哪里:提出了包含3部分1、最大间隔目标(可以更好的分开正标签和负标签以及减轻阈值决定的困难),2、最大关联目标(最大化特征与特征以及特征和相应标签在隐语义空间上的关联),3、相关熵损失(信息论领域常用损失,比传统的softmax损失更鲁棒)的目标函数的深度卷积神经网络。
通过什么样的实验进行验证:在Pascal VOC 20076和MIR Flickr 25K数据集上使用自己的8个变体算法及相关工作中的若干算法作为对比算法和AP、mAP评价指标进行了多组实验,证明了本文模型的优势。
对我的启发:阅读文献不仅要广而且要精,此外还须融会贯通。