coco数据集
- 类别:80类
- 3种标注类型,使用json文件存储,每种类型包含了训练和验证
object instances (目标实例): 也就是目标检测object detection
object keypoints (目标上的关键点)
image captions(看图说话)
要求做的是目标检测,so,我主要做object instances这一块的内容整理。对于其他两块内容的话,网上很多大佬整理得蛮详细的,CSDN一下(其实三者都差不多)。
coco 数据集的特点
推荐一篇博文:Dataset - COCO Dataset 数据特点,写得很详细。object instances 、object keypoints、 image captions的标注形式介绍都有。
json标注文件的格式
在python里面,读取出json标注格式文件,实际上是一个dict,如下所示:
{
"info": info,
"licenses": [license],
"images": [image],
"annotations": [annotation],
"categories": [category]
}
包含5个字段信息:info, licenses, images, annotations,categories。上面3种标注类型共享的字段信息有:info、image、license。不共享的是annotation和category这两种字段,他们在不同类型的JSON文件中是不一样的。
object instances中,概述一下其中每个字段的结构与包含的信息:
(1)images字段列表元素的长度等同于划入训练集(或者测试集)的图片的数量;
(2)annotations字段列表元素的数量等同于训练集(或者测试集)中bounding box的数量;
(3)categories字段列表元素的数量等同于类别的数量,coco为80(2017年);
以下的各个字段,都是object instances中的。
info字段
info字段结构
info: {
"year": int,# 年份
"version": str,# 版本
"description": str, # 数据集描述
"contributor": str,# 提供者
"url": str,# 下载地址
"date_created": datetime
}