数据处理与获取技巧

一。数据集处理流程

  1. 数据集获取

数据集获取平台:Kaggle,天池,DataFountain,coco,科大讯飞,具体获取方式就是上他们得官网搜索你想要的数据集的关键字即可。、

  1. 对图片进行清洗,与我们任务目标不符合的数据集,比如分割任务的标签文件过于粗糙,可以进行舍弃,这一部分一般是人工进行筛选

  2. 有些数据集已经有了标注,但是有些数据是没有进行吧标注的,所以对于没有标注的数据集还需要自己进行标注

  3. 图片数据预处理的方法,一般是标准化,标准化由中心化和归一化构成,可以理解为中心化,将原本中心不在原点的数据集拉回原点,归一化平衡方向轴上的偏移尺度。

  4. 采用现有API或者自己编写的脚本对数据集进行划分

  5. 数据增强,翻转,缩放,裁剪,平移,调整图像属性,加入噪声。

二、数据集转化方法

通常在paddlepaddle平台中,一般支持coco或者voc的格式,只要满足这两种格式的标注,就可以直接调用paddle的算法进行训练。

coco数据集会将标注存放在json文件中,而voc数据集会将标注存放在xml文件中。coco在分割任务中,会记录对应类别点的坐标,通过点阵围起来的区域作为分割部分的结果。而voc则是使用xml的标签嵌套的表示,以目标检测为例,重要的标签主要有图像的名字,以及object标签包裹的内容,一个object标签就是一个检测结果,里面包含检测目标的置信度,类别,矩形框的左上角和右下角的坐标。而coco数据集以json的形式存储,大部分重要的标签与xml类似,不过他矩形框的记录方式是左上角的坐标+框的宽高

对于转化成voc格式的文件,需要先定义好对应的object的模板,以及annotation的模板,在转化过程中写入对应的类别,置信度,已经坐标信息即可。对于转成coco,则需要调用json包进行处理,接着根据coco中对应的键名,进行写入对应的数据信息。

三、自定义标注方法

常用的工具由labelimg,labelme,PPOCRLabel,甚至可以使用EasyDL进行自动标注

四、数据处理方法

图像主要由矢量图和位图两种构成,前者的记录方式是数学的向量,存储小,但是可表现的能力很弱,缩放不会失真;后者记录的是图像的像素点,是像素值矩阵,存储空间大,可表现能力强,缩放会失真。

用于训练的一般是位图,常见的图像处理方式有:灰度化,通道顺序变化,锐化,模糊,高亮变换,对比度变换。

数据增强的过程,就是进行图像变换的过程,但是并不一定是图像增强做的变换越多,效果越好,这是一个玄学的过程。

炼丹的精髓就是数据集好,和参数好,这两个都是玄学的存在。

五、模型评估

可以使用notebook中的可视化工具VisualDL查看训练过程和模型结构,使用对比试验可以判断,自己添加的数据增强方式是否有效,对比的内容就是我们选择的指标。

指标有很多,FP,TN,TP,TN,精确率,召回率,map是每个类别准确率的平均值,iou是预测框和真实框的交集面积除以并集面积的结果。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值