VLAD和MultiVLAD

最新推荐文章于 2024-04-26 14:38:08 发布

悟道修炼中

最新推荐文章于 2024-04-26 14:38:08 发布

阅读量4.4k

点赞数 2

分类专栏：索引技术文章标签：算法 VLAD

本文链接：https://blog.csdn.net/CHIERYU/article/details/65441242

版权

索引技术专栏收录该内容

16 篇文章 4 订阅

订阅专栏

VLAD原理

VLAD特征编码方式可以说是FV特征编码方式的一个简化。

1.原始的VLAD

设有一个特征数据集为这里写图片描述，每个特征向量 ${x_i}$ 都是 $d$ 维的向量。比如提取许多幅图像的SIFT特征，将这些SIFT特征组成上述集合，这里讲的词袋模型并不关心各幅图像中SIFT特征的个数及顺序。
1.聚类（clustering）。首先采用K-means等聚类算法将n个d维的特征 ${x_i} \in R^d,i=1,2,...,n$ 聚类成k类，保存得到的类中心向量集合这里写图片描述，和每个特征向量 ${x_i}$ 所在的类别编号assignment。

2.集成（aggregation）。求出残差向量，即所有特征向量 ${x_i}$ 与其类中心向量 ${\mu_i}$ 的差，将同类别的残差向量求和，得到k个d维的子向量。将k个子向量拉成一个 $D=k*d$ 的一维向量。
这里写图片描述

3.归一化。第一步为幂律归一化（power-law normalization），对向量 $v$ 的每个分量执行这里写图片描述，其中参数 $\alpha<=1$ ，用来主要用来抑制数值大的数同时提升数值小的数。第二步为L2范数归一化。对整个子向量执行。

幂律归一化的目的是主要为了减少某些特征出现次数特别多（visual bursts）带来的影响，这是因为出现次数特别多时聚类中心就在它附近，相应的残差就很小;L2范数归一化的目的主要是为了使得特征向量范数为1，使得对特征的比较是在同一个尺度上，比如可以用来减少同一个物体在不同光照下由于光照等因素带来的特征差异。

在进行特征匹配时，VLAD特征之间的相似性是通过内积来定义，这种相似性受聚类的影响较大。

2.改进的VLAD

FV特征编码方式假设特征符合K个高斯混合模型，而作为其简化版本的VLAD也设定了这个假设。其表达式为：
这里写图片描述

MultiVLAD

VLAD特征相对BoW来说，对图像中占比的物体效果差些。而MultiVLAD是通过提取图像上不同尺度上的14个VLAD特征：9个最细尺度的VLAD特征，4个中等尺度的VLAD特征和一个全局的VLAD特征；尺度是通过网格大小来确定。在检索时，对查询图像q只提取一个全局的VLAD特征，将它与数据库中每个图像y的14个VLAD进行一一比较，计算出最大的相似度做为q和y之间的相似度，因此还可以得到目标物体在图像上的位置和尺度大小。

参考文献：
[1]Delhumeau J, Gosselin P H. Revisiting the VLAD image representation[C]// ACM International Conference on Multimedia. ACM, 2013:653-656.
[2]Arandjelovic R, Zisserman A. All About VLAD[C]// Computer Vision and Pattern Recognition. IEEE, 2013:1578-1585.

悟道修炼中

关注

2
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
VLAD和MultiVLAD

VLAD原理1.原始的VLAD设有一个特征数据集为，每个特征向量xi{x_i}都是dd维的向量。比如提取许多幅图像的SIFT特征，将这些SIFT特征组成上述集合，这里讲的词袋模型并不关心各幅图像中SIFT特征的个数及顺序。 1.聚类（clustering）。首先采用K-means等聚类算法将n个d维的特征聚类成k类，保存得到的类中心向量集合，和每个特征向量${x_i}所在的类别编号assignme
复制链接

扫一扫