飞桨领航团AI达人创造营课程笔记Lesson_2：数据集的获取与处理(CV方向)

最新推荐文章于 2023-05-30 10:54:13 发布

OPMC_Adsp

最新推荐文章于 2023-05-30 10:54:13 发布

阅读量330

点赞数

分类专栏： PaddlePaddle 文章标签：深度学习计算机视觉大数据

本文链接：https://blog.csdn.net/OPMC_Adsp/article/details/119190182

版权

本文介绍了数据集的主要来源，包括Kaggle、天池和DataFountain等平台，详细阐述了COCO数据集的结构、标注格式以及关键点信息。同时，讨论了数据处理与标注工具，如labelimg和labelme，并概述了模型训练中的数据预处理和评估指标mAP的重要性。

摘要由CSDN通过智能技术生成

1 数据集的获取途径

通常，数据来源于各个比赛平台，如百度AI Studio ,Kaggle、天池、讯飞等平台，或者是Github。

1.1 Kaggle有趣比较火热的数据集

House Prices-Advanced Regression Techniques 预测销售价格
Cat and Dog 猫狗分类
Machine Learning from Disaster 预测泰坦尼克号的生存情况并熟悉机器学习基础知识

2 数据处理与标注

2.1 官方数据处理成VOC或者COCO

2.1.1COCO2017数据集介绍

COCO数据集是Microsoft制作收集用于Detection + Segmentation + Localization + Captioning的数据集，作者收集了其2017年的版本，一共有25G左右的图片和600M左右的标签文件。
COCO数据集共有小类80个，分别为：

[‘person’, ‘bicycle’, ‘car’, ‘motorcycle’, ‘airplane’, ‘bus’, ‘train’, ‘truck’, ‘boat’, ‘traffic light’, ‘fire hydrant’, ‘stop sign’, ‘parking meter’, ‘bench’, ‘bird’, ‘cat’, ‘dog’, ‘horse’, ‘sheep’, ‘cow’, ‘elephant’, ‘bear’, ‘zebra’, ‘giraffe’, ‘backpack’, ‘umbrella’, ‘handbag’, ‘tie’, ‘suitcase’, ‘frisbee’, ‘skis’, ‘snowboard’, ‘sports ball’, ‘kite’, ‘baseball bat’, ‘baseball glove’, ‘skateboard’, ‘surfboard’, ‘tennis racket’, ‘bottle’, ‘wine glass’, ‘cup’, ‘fork’, ‘knife’, ‘spoon’, ‘bowl’, ‘banana’, ‘apple’, ‘sandwich’, ‘orange’, ‘broccoli’, ‘carrot’, ‘hot dog’, ‘pizza’, ‘donut’, ‘cake’, ‘chair’, ‘couch’, ‘potted plant’, ‘bed’, ‘dining table’, ‘toilet’, ‘tv’, ‘laptop’, ‘mouse’, ‘remote’, ‘keyboard’, ‘cell phone’, ‘microwave’, ‘oven’, ‘toaster’, ‘sink’, ‘refrigerator’, ‘book’, ‘clock’, ‘vase’, ‘scissors’, ‘teddy bear’, ‘hair drier’, ‘toothbrush’]

大类12个，分别为

[‘appliance’, ‘food’, ‘indoor’, ‘accessory’, ‘electronic’, ‘furniture’, ‘vehicle’, ‘sports’, ‘animal’, ‘kitchen’, ‘person’, ‘outdoor’]

COCO格式，文件夹路径样式：

 COCO_2017/
    ├── val2017     # 总的验证集
    ├── train2017    # 总的训练集
    ├── annotations    # COCO标注
	│   ├── instances_train2017.json     # object instances（目标实例） ---目标实例的训练集标注 
	│   ├── instances_val2017.json        # object instances（目标实例） ---目标实例的验证集标注
	│   ├── person_keypoints_train2017.json     # object keypoints（目标上的关键点） ---关键点检测的训练集标注
	│   ├── person_keypoints_val2017.json       # object keypoints（目标上的关键点） ---关键点检测的验证集标注
	│   ├── captions_train2017.json    # image captions（看图说话） ---看图说话的训练集标注
	│   ├── captions_val2017.json      # image captions（看图说话） ---看图说话的验证集标注

VOC格式，文件夹路径样式：

  VOC_2017/
  ├── Annotations	# 每张图片相关的标注信息,xml格式
  ├── ImageSets
  │   ├── Main	# 各个类别所在图片的文件名
  ├── JPEGImages	# 包括训练验证测试用到的所有图片  
  ├── label_list.txt	# 标签的类别数
  ├── train_val.txt	#训练集 
  ├── val.txt   	# 验证集

2.1.2 Object Keypoint 类型的标注格式

{
    "info": info,
    "licenses": [license],
    "images": [image],
    "annotations": [annotation],
    "categories": [category]
}

其中，info、licenses、images这三个结构体/类型，在不同的JSON文件中这三个类型是一样的，定义是共享的(object instances（目标实例）, object keypoints（目标上的关键点）, image captions（看图说话）)。不共享的是annotation和category这两种结构体，他们在不同类型的JSON文件中是不一样的。新增的keypoints是一个长度为3 X k的数组，其中k是category中keypoints的总数量。每一个keypoint是一个长度为3的数组&#x