COCO数据集合

Y_Wolf

已于 2023-05-31 14:59:55 修改

阅读量296

点赞数 1

分类专栏：图像处理 coco数据文章标签： python 计算机视觉 opencv 数据挖掘

于 2020-01-12 10:37:39 首次发布

本文链接：https://blog.csdn.net/qq_26867967/article/details/103943545

版权

图像处理同时被 2 个专栏收录

2 篇文章 0 订阅

订阅专栏

coco数据

1 篇文章 0 订阅

订阅专栏

Y_Wolf（2020.01.12）

“captions” : 看图说话

根据图片对对象进行描述
- “info” : 基本信息
  - “year” : 年份（int）
  - “version” : 版本编号（str）
  - “description” : 数据集描述（str）
  - “contributor” : 提供者（str）
  - “url”: 下载地址（str）
  - “date_created”: 创建日期（datetime）
- “licenses” : 图片许可证
  - “id” : 许可证ID（int）
  - “name” : 许可证说明（str）
  - “url” : 图片来源（str）
- “images” : 图片信息
  - “id” : 图片ID——不重复（int）
  - “width” : 图片像素宽度（int）
  - “height”: 图片像素高度（int）
  - “file_name” : 图片名称（str）
  - “license” : 许可证ID（int）
  - “flickr_url”: 图片在flickr上的地址（str）
    
    Flickr是雅虎的一个图片存储和视频托管网站
  - “coco_url” : 图片地址（str）
  - “date_captured” : 数据获取日期（datetime）
- “annotations” : 对象信息
  - “id” : 对象ID（int）
    
    因为一张图片可以有很多个对象，比如一个服装模特图，模特穿的衣服是一个对象，穿的裤子也是一个对象。所以这里我们需要对图片中出现的每一个对象都进行编号（每个编号都是唯一的）
  - “image_id” : 对象所对应的图片ID（int）
    
    与 “captions” -> “images” 中的ID相对应
  - “captions” : 文字描述（str）
“instances” : 目标实例

框出相应的对象
- “info” : 基本信息
  - “year” : 年份（int）
  - “version” : 版本编号（str）
  - “description” : 数据集描述（str）
  - “contributor” : 提供者（str）
  - “url”: 下载地址（str）
  - “date_created”: 创建日期（datetime）
- “licenses” : 图片许可证
  - “id” : 许可证ID（int）
  - “name” : 许可证说明（str）
  - “url” : 图片来源（str）
- “images” : 图片信息
  - “id” : 图片ID——不重复（int）
  - “width” : 图片像素宽度（int）
  - “height”: 图片像素高度（int）
  - “file_name” : 图片名称（str）
  - “license” : 许可证ID（int）
  - “flickr_url”: 图片在flickr上的地址（str）
    
    Flickr是雅虎的一个图片存储和视频托管网站
  - “coco_url” : 图片地址（str）
  - “date_captured” : 数据获取日期（datetime）
- “annotations” : 对象信息
  - “id” : 对象ID（int）
    
    因为一张图片可以有很多个对象，比如一个服装模特图，模特穿的衣服是一个对象，穿的裤子也是一个对象。所以这里我们需要对图片中出现的每一个对象都进行编号（每个编号都是唯一的）
  - “image_id” : 对象所对应的图片ID（int）
    
    与 “captions” -> “images” 中的ID相对应
  - “category_id” : 类别ID (int)
    
    与 “captions” -> “categories” 中的ID相对应
  - “segmentation”: 对象的边界点
    
    polygon（边界多边形），格式为c(x1, y1, x2, y2 …xn,yn)，这些数按照相邻的顺序两两组成一个点的xy坐标，然后根据顺序将这些点连接成环，来围住对象的轮廓。RLE （行程长度编码），这是一种可以用于压缩图像的算法。假设我们将图像中与对象无关的像素标记为0，有关的像素标记为1。那么就会的到一个由0和1组成的矩阵，假设矩阵为 c((0, 1, 1),(1, 0, 0), (1, 1, 1)) ,由于RLE是沿着列从上往下进行压缩的，因此压缩后的矩阵就为 c(1, 3, 1, 2, 1, 1)。同时为了知道矩阵原先的长度，我们会记录矩阵原先的大小。这样就可以将一组对象标记出来了。
  - “area”: 区域面积（float）
  - “bbox”: 定位边框（vector）
  - “iscrowd”: 0 或 1
    
    当实例是一个单个的对象时， “iscrowd” = 0 ，“segmentation” 使用 polygon格式；当实例是一组对象时时，“iscrowd” = 1 ，“segmentation” 使用 RLE格式；
- “categories” : 类别信息
  - “supercategory”: 主类别（str）
  - “id”: 类对应的id （int）
    
    0 默认为背景
  - “name”: 子类别（str）
“person_keypoints” : 目标上的关键点

标记出该类别的关键点
- “info” : 基本信息
  - “year” : 年份（int）
  - “version” : 版本编号（str）
  - “description” : 数据集描述（str）
  - “contributor” : 提供者（str）
  - “url”: 下载地址（str）
  - “date_created”: 创建日期（datetime）
- “licenses” : 图片许可证
  - “id” : 许可证ID（int）
  - “name” : 许可证说明（str）
  - “url” : 图片来源（str）
- “images” : 图片信息
  - “id” : 图片ID——不重复（int）
  - “width” : 图片像素宽度（int）
  - “height”: 图片像素高度（int）
  - “file_name” : 图片名称（str）
  - “license” : 许可证ID（int）
  - “flickr_url”: 图片在flickr上的地址（str）
    
    Flickr是雅虎的一个图片存储和视频托管网站
  - “coco_url” : 图片地址（str）
  - “date_captured” : 数据获取日期（datetime）
- “annotations” : 对象信息
  - “keypoints”: 关键点信息（vector）
    
    "annotations"中的"keypoints"按照顺序为"captions"中"keypoints"的每个关键点都定义了一个长度为3的数组。数组中的前两个元素分别为x和y的坐标值。第三个元素为标注位v。当这个关键点没有被标注时，v = 0；当这个关键点被标注了但是被遮挡时，v = 1；当这个关键点被标注了也看得见时，v = 2；
  - “num_keypoints”: 对象上被标注的关键点数量(int)
    
    num_keypoints表示这个目标上被标注的关键点的数量（v > 0），比较小的目标上可能就无法标注关键点
  - “id” : 对象ID（int）
    
    因为一张图片可以有很多个对象，比如一个服装模特图，模特穿的衣服是一个对象，穿的裤子也是一个对象。所以这里我们需要对图片中出现的每一个对象都进行编号（每个编号都是唯一的）
  - “image_id” : 对象所对应的图片ID（int）
    
    与 “captions” -> “images” 中的ID相对应
  - “category_id” : 类别ID (int)
    
    与 “captions” -> “categories” 中的ID相对应
  - “segmentation”: 对象的边界点
    
    polygon（边界多边形），格式为c(x1, y1, x2, y2 …xn,yn)，这些数按照相邻的顺序两两组成一个点的xy坐标，然后根据顺序将这些点连接成环，来围住对象的轮廓。RLE （行程长度编码），这是一种可以用于压缩图像的算法。假设我们将图像中与对象无关的像素标记为0，有关的像素标记为1。那么就会的到一个由0和1组成的矩阵，假设矩阵为 c((0, 1, 1),(1, 0, 0), (1, 1, 1)) ,由于RLE是沿着列从上往下进行压缩的，因此压缩后的矩阵就为 c(1, 3, 1, 2, 1, 1)。同时为了知道矩阵原先的长度，我们会记录矩阵原先的大小。这样就可以将一组对象标记出来了。
  - “area”: 区域面积（float）
  - “bbox”: 定位边框（vector）
  - “iscrowd”: 0 或 1
    
    当实例是一个单个的对象时， “iscrowd” = 0 ，“segmentation” 使用 polygon格式；当实例是一组对象时时，“iscrowd” = 1 ，“segmentation” 使用 RLE格式；
- “categories” : 类别信息
  - “supercategory”: 主类别（str）
  - “id”: 类对应的id （int）
    
    0 默认为背景
  - “name”: 子类别（str）
  - “keypoints”: 关键点名称（str）
  - “skeleton”: 关键点之间的连接性

很长一段时间没有在csdn中写文章了，事实上后面自己学习过程中的大部分文档都是在语雀中完成的，基本都是自己写自己看。后续文章都会分享到自己的个人博客上，感兴趣的话可以关注一下。个人博客地址

Y_Wolf

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
COCO数据集合

COCO数据集合Y_Wolf（2020.01.12）“captions” : 看图说话根据图片对对象进行描述“info” : 基本信息“year” : 年份（int）“version” : 版本编号（str）“description” : 数据集描述（str）“contributor” : 提供者（str）“url”: 下载地址（str）“date_crea...
复制链接

扫一扫