AlexNet文献阅读03

2 数据集

原文

“ImageNet is a dataset of over 15 million labeled high-resolution images belonging to roughly 22,000 categories. The images were collected from the web and labeled by human labelers using Amazon’s Mechanical Turk crowd-sourcing tool. Starting in 2010, as part of the Pascal Visual Object Challenge, an annual competition called the ImageNet Large-Scale Visual Recognition Challenge (ILSVRC) has been held. ILSVRC uses a subset of ImageNet with roughly 1000 images in each of 1000 categories. In all, there are roughly 1.2 million training images, 50,000 validation images, and 150,000 testing images.” (Krizhevsky 等, 2017, p. 2) (pdf)

ImageNet是一个由超过1500万张标注的高分辨率图像组成的数据集,属于大约22,000个类别。这些图像是从网上收集的,并由人类贴标者使用亚马逊的研究工具众包工具进行标记。从2010年开始,作为Pascal视觉对象挑战赛的一部分,每年举办一次名为ImageNet大规模视觉识别挑战赛( ILSVRC )的竞赛。ILSVRC使用ImageNet的一个子集,在1000个类别中的每个类别中大约有1000个图像。总共有大约120万张训练图像、50,000张验证图像和150,000张测试图像。

解读

(1)视觉识别挑战赛使用ImageNet的一个子集,ImageNet中包含训练,验证,测试图片

原文

“ILSVRC-2010 is the only version of ILSVRC for which the test set labels are available, so this is the version on which we performed most of our experiments. Since we also entered our model in the ILSVRC-2012 competition, in Section 6 we report our results on this version of the dataset as well, for which test set labels are unavailable. On ImageNet, it is customary to report two error rates: top-1 and top-5, where the top-5 error rate is the fraction of test images for which the correct label is not among the five labels considered most probable by the model.” (Krizhevsky 等, 2017, p. 2) (pdf)

ILSVRC - 2010是唯一一个测试集标签可用的ILSVRC版本,因此这是我们进行大部分实验的版本。由于我们也在ILSVRC - 2012竞赛中输入了我们的模型,在第6节中我们也报告了我们在这个版本的数据集上的结果,对于这个版本的数据集,测试集标签是不可用的。在ImageNet上,通常报告两个错误率:top - 1和top - 5,其中top - 5错误率是模型认为最可能的5个标签中没有正确标签的测试图像的分数。

解读

(1)ILSVRC - 2010测试集标签可以使用

原文

“ImageNet consists of variable-resolution images, while our system requires a constant input dimensionality. Therefore, we down-sampled the images to a fixed resolution of 256 × 256. Given a rectangular image, we first rescaled the image such that the shorter side was of length 256, and then cropped out the central 256×256 patch from the resulting image. We did not pre-process the images in any other way, except for subtracting the mean activity over the training set from each pixel. So we trained our network on the (centered) raw RGB values of the pixels.” (Krizhevsky 等, 2017, p. 2) (pdf) ImageNet由可变分辨率的图像组成,而我们的系统需要一个恒定的输入维度。因此,我们将图像降采样到256 × 256的固定分辨率。给定一个矩形图像,我们首先对图像进行缩放,使较短的边长为256,然后从结果图像中裁剪出中心的256 × 256块。我们没有以任何其他方式预处理图像,除了从每个像素中减去训练集的平均活动。因此,我们在像素的(中心)原始RGB值上训练我们的网络。

解读

(1)ImageNet是可分辨率的图像,不同的分辨率的图像有不同的像素和尺寸。

(2)对图像预处理操作,裁剪和从每个像素中减去训练集的平均活动(计算训练集中每个位置的平均值和对每个像素减去平均值)

  • 6
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

一个学术垃圾

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值