一、数据集的获取
大部分经典数据集例如有百度AI Studio ,Kaggle、天池、讯飞等平台(通过关键词搜索获取需要的数据集),或者是Github等。
-
百度AI Studio
经典MNIST数据集
猫脸识别-12种猫分类数据集 -
Kaggle
House Prices-Advanced Regression Techniques
Cat and Dog
Machine Learning from Disaster -
天池
Barley Remote Sensing Dataset大麦遥感检测数据集 遥感影像分割耶鲁人脸数据库 目标检测任务(人脸检测)
二、数据处理
-
图片数据获取
-
图片数据清洗
初步了解数据,筛选掉不合适的图片
-
图片数据标注
-
图片数据预处理data preprocessing
标准化 standardlization
中心化 = 去均值 mean normallization
将各个维度中心化到0
目的是加快收敛速度,在某些激活函数上表现更好
归一化 = 除以标准差
将各个维度的方差标准化处于[-1,1]之间
目的是提高收敛效率,统一不同输入范围的数据对于模型学习的影响,映射到激活函数有效梯度的值域
- 图片数据准备data preparation(训练+测试阶段)
- 划分训练集,验证集,以及测试集
- 图片数据增强data augjmentation(训练阶段 )
CV常见的数据增强
· 随机旋转
· 随机水平或者重直翻转
· 缩放
· 剪裁
· 平移
· 调整亮度、对比度、饱和度、色差等等
· 注入噪声
· 基于生成对抗网络GAN做数搪增强AutoAugment等
三、常见标注工具
对于图像分类任务,我们只要将对应的图片是哪个类别划分好即可。对于检测任务和分割任务,目前比较流行的数据标注工具是labelimg、labelme,分别用于检测任务与分割任务的标注。
标注工具Github地址: