VLAD NETVLAD

fanzy1234

已于 2024-04-26 17:04:24 修改

阅读量261

点赞数 4

文章标签：深度学习图像处理

于 2024-04-26 14:38:08 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/fanzy1234/article/details/138218307

版权

VLAD:

先用sift对图像提取特征点并计算其描述子．对一张图像的n个d维的描述子进行聚类得到k个聚类中心，对每个类所包含的描述子减去聚类中心后求和得到一个向量，k个类别就得到k个d维向量，用这k个d维向量去表达一张图像

NETVLAD:

改进1: 用所有描述子对每一个聚类中心的差值求加权平均和．即对描述子到聚类中心的差值乘以一个权重再去求和．权重是所有描述子到聚类中心距离再做一个softmax得到的．

改进2: 引入卷积网络直接对一张图像提取这k个d维向量

网络: 一张图像经过卷积得到wxhxd的featuremap，用Ｎ表示wxh，然后网络分成两个分支，一个分支对N个d维向量计算出k个聚类中心．另一个分支去计算权重．计算完权重和聚类中心就可以减去聚类中心加权求和后得到一张图的kxd的向量表达．

计算N个描述子到K个聚类中心的权重，结果应该是Nxk的矩阵．计算权重的分支对wxhxd的fm用k个1x1卷积核卷积得wxh x k的fm，代表N个k维向量，每个k有N个向量，用每个k下的N个向量求softmax，得到描述子到每个聚类中心加权的权重．

总结：不再需要提取特征点即可得到一张图的向量表达，就没有特征点了．

参考：NetVLAD原理详解和推导-CSDN博客

NeXtVLAD:

对网络做了改进，加了残差连接和多尺度的网络结构(一层出来经过多个不同尺度的卷积核的结果再融合到一起)

参数量从netvlad的268MB降低到netxtvlad的 71MB

参考：NetVLAD系列代码串讲 - 知乎

用chatgpt总结一下：

本文讨论了图像特征提取和表达的相关技术，包括 SIFT、VLAD、NETVLAD 和 NeXtVLAD。关键要点包括：

VLAD：对图像的描述子进行聚类，得到聚类中心，然后对每个类所包含的描述子减去聚类中心后求和，用这 k 个 d 维向量去表达一张图像。
NETVLAD：对 VLAD 进行改进，用所有描述子对每一个聚类中心的差值求加权平均和，并引入卷积网络直接对一张图像提取这 k 个 d 维向量。
NeXtVLAD：对网络做了改进，加了残差连接和多尺度的网络结构，降低了参数量。

关注

4
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
VLAD NETVLAD

本文讨论了图像特征提取和表达的相关技术，包括 SIFT、VLAD、NETVLAD 和 NeXtVLAD。VLAD：对图像的描述子进行聚类，得到聚类中心，然后对每个类所包含的描述子减去聚类中心后求和，用这 k 个 d 维向量去表达一张图像。NETVLAD：对 VLAD 进行改进，用所有描述子对每一个聚类中心的差值求加权平均和，并引入卷积网络直接对一张图像提取这 k 个 d 维向量。NeXtVLAD：对网络做了改进，加了残差连接和多尺度的网络结构，降低了参数量。
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。