ImageNet
ImageNet中最常用子集是ImageNet Large Scale Visual Recognition Challenge(ILSVRC)2012-2017图像分类和检测子集。该数据集包含1000 大类(可以细分为21K个小类),包含 1,281,167 张训练图像、50,000 张验证图像和 100,000 张测试图像。
本次比赛的目标是使用大型手工标记 ImageNet 数据集(描绘 10,000 多个对象类别的 10,000,000 张标记图像)的子集来估计照片的内容,以进行检索和自动注释。 测试图像将在没有初始注释的情况下呈现——没有分割或标签——并且算法必须生成标签,指定图像中存在哪些对象。 在这个初始版本的比赛中,目标只是识别图像中存在的主要物体,而不是指定物体的位置。
本次比赛的验证和测试数据将包括从 flickr 和其他搜索引擎收集的 200,000 张照片,手工标记有 1000 个对象类别的存在或不存在。 这 1000 个对象类别包含 ImageNet 的内部节点和叶节点,但彼此不重叠。 50,000 张带有标签的图像的随机子集将作为开发套件中包含的验证数据与 1000 个类别的列表一起发布。 其余图片将用于评估,并在测试时无标签发布。
训练数据是 ImageNet 的子集,包含 1000 个类别和 120 万张图像,将打包以便于下载。 本次比赛的验证和测试数据不包含在 ImageNet 训练数据中(我们将删除任何重复项)。
任务:对图像中主体类别进行识别
与2010相同,但是引入了一个新任务,指定对象的位置。
任务:进行目标检测任务
数据与2010相同,在2011的基础上引入细粒度任务
任务:在原有的任务中,加入细粒度识别任务,识别狗的种类
数据与2010相同,在2012的基础上引入细粒度任务
任务:去掉细粒度识别,主要还是加入目标检测
NEW:与ILSVRC2013相比,今年检测数据集的训练集将显着扩展。 使用场景级查询从 Flickr 收集了 60658 张新图像。 这些图像用 200 个对象类别进行了完全注释,产生了 132953 个新的边界框注释。
主要增加尝鲜任务:视频中检测和场景识别
主要加入场景解析,对场景进行分割,包括150种元素和对象种类
没有新任务加入
PASCAL VOC Dataset
COCO Dataset