Supervised Learning of Semantics-Preserving Hash via Deep Convolutional Neural Networks-基于深度卷积神经网络的语

一.论文中比较的数据集

二.各种数据集的比较

CIFAR-10:训练集50000,测试集10000,从测试集中随机抽取1000样本作为性能评估的查询集,每个类100个样本。

NUS-WIDE:270,000个图像的数据集。每个图像属于从81个概念标签中取出的多个类别。NUS-WIDE网站仅提供图像的URL,并且根据给定的链接,能够收集大约230,000张图像,因为其他图像已被所有者删除。我们在评估中使用21个最常见标签中的图像,每个标签至少有5,000个图像。图像被分成97,214个图像的训练集和65,075个图像的测试集。训练集用于网络训练,从测试集中随机采样每个标签100个图像以形成2,100个图像的查询集。

MNIST:训练集60000,测试集10000.

SUN397:大型场景数据集,由397个类别中的108754张图片组成,每个类别至少包含100张图片。随机选择8000张图像作为查询集,将剩余的100754作为训练集。

UT-ZAP50K :50025张图像。该数据集是为购物任务的细粒度视觉比较而创建的。要在检索任务中使用它。我们随机选择8000张图像,每类1000张作为测试集,并使用剩余的图像(42025)进行训练。

Yahoo-1M:包含从雅虎购物网站收集的1124086个产品图片。总共有116个类。每个类的图像数量差别很大,从1007到150211不等。为了将数据集分成两组,我们从每个类中选择90%的图像作为训练样本,其余10%作为测试样本。因此,整个数据集被划分为1011723个图像的训练集和112363个图像的测试集。

ILSVRC2012:是ImageNet大规模视觉识别挑战的数据集。它有1000个对象类,大约120万个训练图像,50000个验证图像和100000个测试图像。使用训练集进行网络学习,并在评估中使用验证集作为查询。

Paris:是图像检索的标准基准。它包括6412张巴黎地标图像。检索算法的性能是基于55个查询的mAP来计算的。

Oxford:是另一种广泛使用的图像检索基准。它包含5062张图像,对应11个牛津地标。与巴黎一样,55个查询(每个地标5个)用于评估。

三.数据集的处理

首先将图片归一化,缩放到256*256大小,然后将居中裁剪成227*227作为AlexNet的输入或者224*224作为VGG的输入。

四.评价指标

  • 平均精度(mAP):根据查询的汉明距离对所有的图像进行排序,并计算mAP;
  • k个样本的精度:计算前k个检索图像中真实样本所占比。
  • 汉明半径r内的精度:计算在查询图像的汉明距离r内的精度,先前他人的实验中,将r设置为2。

五.性能比较

CIFAR-10:网络的损失函数由E1(标签误差)、E2(二值化约束)和E3(相等稀疏)组成。α、β、γ分别为这三个损失的权重。这3个权重的取值为{2^0,2^1,2^2,2^3 },经过对比选择α、β、γ的权重组合为{1,1,1}。

同时也探究了L1损失和L2损失对性能的影响。

发现p1和p2对分类的影响相同,后面实验都是使用p2。

SUN397:

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值