论文杂记 | ||
---|---|---|
上一篇 | 主目录 | 下一篇 |
【前言】
西安交通大学学报-2019-图像检索–联合加权聚合深度卷积特征的图像检索方法-时璇
论文下载链接
1 课题背景
1.1 存在的问题
图像特征提取不充分影响检索平均精确率。基于内容的图像检索技术的关键步骤时得到图像的特征表示。
1.2 其他方法介绍
SIFT :
○ 即尺度不变特征变换(Scale-invariant feature transform),SIFT特征是基于物体上的一些局部外观的兴趣点而与影像的大小和旋转无关。对于光线、噪声、微视角改变的容忍度也相当高。
CNN:
○ 即卷积神经网络,此类方法直接提取某层 的输出作为图像的特征表示。卷积神经网络的隐含层包含卷积层、池化层和全连接层3类常见构筑,隐含层中的顺序通常为:输入-卷积层-池化层-全连接层-输出。
○ 将网络的全连接层输出作为图像的全局特征表示,会丢失图像的空间信息,造成内容的畸变,因此平均检索率不高。
○ 将卷积层输出即图像的深度卷积特征作为其全局特征表示,保留空间信息,无需缩放图片
CroW方法 :
○ 通过空间权重和通道权重来突出图像的显著性区域
SBA:
○ 利用图像深度卷积特征中不同特征图的区分性生成语义探测器,通过加权聚合得到图像全局特征表示
1.3 本文方法
本文基于SBA和CroW方法 提出联合加权聚合深度卷积特征的图像检索方法,采用空间权重矩阵来突出图像的显著性区域并抑制背景区域,根据通道权重向量区分性得对待不同通道得特征图
2 基于深度卷积特征的图像检索框架
离线过程:
- 将图像数据集中每张图像输入到预先训练好的卷积神经网络中
- 提取神经网络的卷积层输出得到图像的深度卷积特征
- 使用适合的聚合方法将其聚合为全局全局特征(什么方法,如何聚合?文本所做工作,见3)
- 将全局特征向量存入特征向量库中
在线过程:
- 将查询的图像输入到相同的卷积神经网络中
- 获取该图像的深度卷积特征(应该是从卷积层输出获取)
- 使用相同的聚合方法得到该图像的全局特征向量
- 比较该图像的全局特征向量与全局特征向量库中的全局特征向量之间的距离
- 根据相似性大小进行排序,返回结果
聚合方法的好坏是影响检索平均精确率的核心因素,本文的研究重点
3 联合加权聚合深度卷积特征的方法
3.1 方法概述
-
将数据输入预先训练好的VGG16卷积神经网络
-
pool5层输出作为每张图片的深度卷积特征,记为X,X是 K X W X H 的三维向量,K是通道的个数,每个通道的特征图是W X H的矩阵(K=512,W和H是固定值)
X是某张图片的深度卷积特征,有K个通道,每个通道的特征图是W X H的矩阵。见图中第三个部分标注的K,W和H,从上而下对应着每一个样本
-
提出空间权重矩阵 S,S是W X H的矩阵
(1) S对相应空间位置元素矩阵 S’ 进行规范化得到的:
这里 S’ 是将下图
中每一片的对应元素相加让后除以K求平均值???如果是这样的话,每张图片都得到一个W X H 的空间位置元素矩阵 S’
(2) 由以下公式求得空间权重矩阵 S:(S’ 的每个元素除以对S’ 的每个元素平方求和的根号)
(3) 然后对X进行加权聚合得到的图像的全局特征向量:
X是 K X W X H 的三维向量,S是W X H的矩阵,用S去乘以K片(都是W X H矩阵)矩阵图像,然后每一片的W * H个数相加得到一个数,于是有了K个数(K是通道数),即为K维向量,是该图像的全局特征向量:
-
计算空间权重矩阵 B
(1) 对数据集图像的全局特征向量按照通道求方差 并排序输出方差最大的前N个通道的索引值。
这里的按照通道求方差 是啥意思???
3中已经得到该图像的全局特征向量:
然后每个图像都有这样一个K维向量:
K是通道的数量,那么按照通道求方差是指按照上图中每一列的数据求方差?然后在【1~K】的范围内返回前N个方差最大的索引?
(2) 利用对应通道的特征图计算空间权重矩阵 B,B是W X H的矩阵
前N个方差最大的索引对应通道的特征图是啥???
文中说到SBA方法利用方差最大的特征图计算出空间权重矩阵B,SBA方法的算法原理??? -
对X进行B加权,聚合,P加权,拼接处理(?怎么拼接?)
(1)P是K维向量,其定义为:
其中
V是特征图的方差值组成的向量,Z是特征图的非零元素占比组成的向量,ε是用来保持数值稳定性的常数
(2) 使用通道权重向量P对XB进行处理得到全局特征向量
为什么有两个全局特征向量Ω’和Ω,区别在哪???
一个是用S加权,另一个是用B进行加权且同时乘以通道权重矩阵。空间权重矩阵S可以反映原始图像的语义信息,如下图所示:
热图中白色区域权重大,越靠近区域中心权重越大;黑色区域权重小,区域越黑权重越小。可以看出,空间权重矩阵S在建筑物所在区域赋予较大的权重,同时在不相关的区域赋予较小的权重,大致显示出原始图像轮廓。因此,将图像的深度卷积特征与空间权重矩阵S进行点乘后,可以突出原始图像空间位置的显著性区域,同时抑制其他区域。
乘以S 和乘以P的差别在哪???
由空间权重矩阵S对特征图进行加权、聚合,由按通道的前N个方差最大的特征图得到空间权重矩阵B(SBA方法)
为什么要乘以P???
图像的特征图经过B加权,激活值较大且激活区域较多的特征图得到了加强。但是,某些激活值较小且激活区域较少的特征图也可能提供重要的信息,并对平均检索精确率产生正面影响,因此应赋予这些特征图较大的权值。使用通道权重可以实现给这些特征图赋予较大的权重。 -
对得到的N X K维全局特征向量进行归一化,PCA降维和归一化处理后,得到表示为L维的全局特征向量
什么是PCA降维???
PCA博文链接
PCA博文链接论文杂记:传送门