ImageNet图像数据集介绍

最新推荐文章于 2025-01-22 18:33:01 发布

fengbingchun

最新推荐文章于 2025-01-22 18:33:01 发布

阅读量10w+

点赞数 49

分类专栏： Database/Dataset

本文链接：https://blog.csdn.net/fengbingchun/article/details/88606621

版权

Database/Dataset 专栏收录该内容

20 篇文章

订阅专栏

ImageNet图像数据集始于2009年，当时李飞飞教授等在CVPR2009上发表了一篇名为《ImageNet: A Large-Scale Hierarchical Image Database》的论文，之后就是基于ImageNet数据集的7届ImageNet挑战赛(2010年开始)，2017年后，ImageNet由Kaggle(Kaggle公司是由联合创始人兼首席执行官Anthony Goldbloom 2010年在墨尔本创立的，主要是为开发商和数据科学家提供举办机器学习竞赛、托管数据库、编写和分享代码的平台)继续维护。

WordNet是一个由普林斯顿大学认识科学实验室在心理学教授乔治·A·米勒的指导下建立和维护的英语字典。开发工作从1985年开始。由于它包含了语义信息，所以有别于通常意义上的字典。WordNet根据词条的意义将它们分组，每一个具有相同意义的字条组称为一个synset(同义词集合)。WordNet为每一个synset提供了简短，概要的定义，并记录不同synset之间的语义关系。WordNet中的每个有意义的概念(concept)(可能由多个单词或单词短语描述)被称为"同义词集(synonym set)"或"synset"。

ImageNet是根据WordNet层次结构组织的图像数据集。在ImageNet中，目标是为了说明每个synset提供平均1000幅图像。每个concept图像都是质量控制和人为标注的(quality-controlled and human-annotated)。在完成之后，希望ImageNet能够为WordNet层次结构中的大多数concept提供数千万个干净整理的图像(cleanly sorted images)。

ImageNet是一项持续的研究工作，旨在为世界各地的研究人员提供易于访问的图像数据库。目前ImageNet中总共有14197122幅图像，总共分为21841个类别(synsets)，大类别包括：amphibian、animal、appliance、bird、covering、device、fabric、fish、flower、food、fruit、fungus、furniture、geological formation、invertebrate、mammal、musical instrument、plant、reptile、sport、structure、tool、tree、utensil、vegetable、vehicle、person。

ImageNet有5种下载方式，如下图所示：

(1). 所有图像可通过url下载：不需要账号登录即可免费下载，下载链接：http://www.image-net.org/download-imageurls ，在SEARCH框中输入需要下载的synset，如tree，结果如下图所示，也可按类别下载即WordNet ID，下载链接：http://www.image-net.org/synset?wnid=n02084071 ，其中好像个别url已失效。

(2). 直接下载原始图像：需要自己申请注册一个账号，然后登录，经验证普通非学校邮箱无法注册。对于希望将图像用于非商业研究或教育目的的研究人员，可以在特定条件下通过ImageNet网站提供访问权限。

(3). 下载图像sift features：不需要账号登录即可免费下载，包括原始sift descriptors、quantized codewords、spatial coordiates of each descriptor/codeword。提features前，需要缩放图像大小到最大边长不超过300像素。通过VLFeat开源软件提前sift features。并没有对所有的synsets图像提取sift。下载链接：http://www.image-net.org/api/download/imagenet.sbow.synset?wnid=n02119789 ，后面的n02119789为WordNet ID,可在http://www.image-net.org/api/text/imagenet.sbow.obtain_synset_list 中查看有哪些WordNet ID包括sift features并可点击直接下载，下载下来的是一个Matlab文件(.mat)，如n02119789.sbow.mat，在每个.mat文件中，每个sift descriptor有5个字段:x, y, norm, scale, word。word字段是cluster(k-means clustering of a random subset of 10 million SIFT descriptors)中心的索引，是一个0到999之间的一个整数。

(4). 下载Object Bounding Boxes：不需要账号登录即可免费下载，bounding boxes是通过亚马逊土耳其机器人(Amazon Mechanical Turk)进行标注和验证的。目前标注过的synsets已经超过3000种，可从http://www.image-net.org/api/text/imagenet.bbox.obtain_synset_list 中查看和下载已标注的种类。对于每种synset，平均有150张带有边界框(bounding boxes)的图像。图像标注以PASCAL VOC格式保存在XML文件中，用户可以使用PASCAL Development Toolkit解析标注。注意：在边界框标注中，有两个字段(width和height)表示图像的大小。标注文件中边界框的位置和大小与此大小有关。但是，此大小可能与下载的包中的实际图像大小不同。(原因是标注文件中的大小是图像显示给标注器的显示大小)。因此，要在原始图像上找到实际像素，可能需要相应地重新缩放边界框。可以通过http://www.image-net.org/Annotation/Annotation.tar.gz 下载所有的标注文件，也可以通过http://www.image-net.org/api/download/imagenet.bbox.synset?wnid=n02119789 ，下载特定的synset，后面的n02119789为WordNet ID。

(5). 下载Object Attributes：不需要账号登录即可免费下载，object attributes是通过亚马逊土耳其机器人(Amazon Mechanical Turk)进行标注和验证的。目前标注过的synsets大约有400种，可从http://www.image-net.org/api/text/imagenet.attributes.obtain_synset_list 中查看已标注的种类，通过http://www.image-net.org/api/text/imagenet.attributes.obtain_synset_wordlist 点击下载特定的种类。对于每一个synset，包含25种属性：A. 颜色：黑色，蓝色，棕色，灰色，绿色，橙色，粉红色，红色，紫罗兰色，白色，黄色; B. 图案(pattern)：斑点，条纹；C. 形状：长，圆形，矩形，方形；D. 纹理(texture)：毛茸茸，光滑，粗糙，有光泽，金属色，植被(vegetation)，木质，湿润。标注的属性是基于先前收集的边界框内的object，即感兴趣区域的object而不是整幅图像。可以通过http://www.image-net.org/downloads/attributes/attrann.mat 下载整个文件，这个.mat文件有一个attrann结构体，包括：A. 图像列表；B. bounding boxes列表：每幅图像一个，每个bounding boxes包含x1,x2,y1,y2字段，所有字段的值都归一化为介于0和1之间；C. 属性列表：图像数*属性数的labels矩阵，label为1表示属性存在，label为-1表示属性不存在，label为0表示不确定。也可以通过http://www.image-net.org/api/download/imagenet.attributes.synset?wnid=n01322604 ，下载特定的synset,后面的n01322604为WordNet ID。

ImageNet中的每张图片属于提供图片的个人，ImageNet不拥有图像的版权，ImageNet数据集可以免费用于学术研究和非商业用途，但不能直接使用这些数据作为产品的一部分。

ImageNet Large Scale Visual Recognition Challenge(ILSVRC)，从2010年开始,每年举办的ImageNet大规模视觉识别挑战赛，到2017年后截止。比赛项目包括：图像分类(Classification)、目标定位(Object localization)、目标检测(Object detection)、视频目标检测(Object detection from video)、场景分类(Scene classification)、场景解析(Scene parsing)。ILSVRC中使用到的数据仅是ImageNet数据集中的一部分。比赛使用的所有数据集均可通过登录后下载。

"ImageNet改变了AI领域人们对数据集的认识，人们真正开始意识到它在研究中的地位，就像算法一样重要"，李飞飞教授说。

GitHub： https://github.com/fengbingchun/NN_Test