数据处理与获取技巧

最新推荐文章于 2022-11-01 16:54:11 发布

ZeroRains

最新推荐文章于 2022-11-01 16:54:11 发布

阅读量240

点赞数

分类专栏：百度AI达人创造营文章标签：机器学习计算机视觉人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/kiminoamae/article/details/119277784

版权

百度AI达人创造营专栏收录该内容

6 篇文章 1 订阅

订阅专栏

一。数据集处理流程

数据集获取

数据集获取平台：Kaggle，天池，DataFountain，coco，科大讯飞，具体获取方式就是上他们得官网搜索你想要的数据集的关键字即可。、

对图片进行清洗，与我们任务目标不符合的数据集，比如分割任务的标签文件过于粗糙，可以进行舍弃，这一部分一般是人工进行筛选
有些数据集已经有了标注，但是有些数据是没有进行吧标注的，所以对于没有标注的数据集还需要自己进行标注
图片数据预处理的方法，一般是标准化，标准化由中心化和归一化构成，可以理解为中心化，将原本中心不在原点的数据集拉回原点，归一化平衡方向轴上的偏移尺度。
采用现有API或者自己编写的脚本对数据集进行划分
数据增强，翻转，缩放，裁剪，平移，调整图像属性，加入噪声。

二、数据集转化方法

通常在paddlepaddle平台中，一般支持coco或者voc的格式，只要满足这两种格式的标注，就可以直接调用paddle的算法进行训练。

coco数据集会将标注存放在json文件中，而voc数据集会将标注存放在xml文件中。coco在分割任务中，会记录对应类别点的坐标，通过点阵围起来的区域作为分割部分的结果。而voc则是使用xml的标签嵌套的表示，以目标检测为例，重要的标签主要有图像的名字，以及object标签包裹的内容，一个object标签就是一个检测结果，里面包含检测目标的置信度，类别，矩形框的左上角和右下角的坐标。而coco数据集以json的形式存储，大部分重要的标签与xml类似，不过他矩形框的记录方式是左上角的坐标+框的宽高

对于转化成voc格式的文件，需要先定义好对应的object的模板，以及annotation的模板，在转化过程中写入对应的类别，置信度，已经坐标信息即可。对于转成coco，则需要调用json包进行处理，接着根据coco中对应的键名，进行写入对应的数据信息。

三、自定义标注方法

常用的工具由labelimg,labelme,PPOCRLabel，甚至可以使用EasyDL进行自动标注

四、数据处理方法

图像主要由矢量图和位图两种构成，前者的记录方式是数学的向量，存储小，但是可表现的能力很弱，缩放不会失真；后者记录的是图像的像素点，是像素值矩阵，存储空间大，可表现能力强，缩放会失真。

用于训练的一般是位图，常见的图像处理方式有：灰度化，通道顺序变化，锐化，模糊，高亮变换，对比度变换。

数据增强的过程，就是进行图像变换的过程，但是并不一定是图像增强做的变换越多，效果越好，这是一个玄学的过程。

炼丹的精髓就是数据集好，和参数好，这两个都是玄学的存在。

五、模型评估

可以使用notebook中的可视化工具VisualDL查看训练过程和模型结构，使用对比试验可以判断，自己添加的数据增强方式是否有效，对比的内容就是我们选择的指标。

指标有很多，FP,TN,TP,TN,精确率，召回率，map是每个类别准确率的平均值，iou是预测框和真实框的交集面积除以并集面积的结果。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
数据处理与获取技巧

一。数据集处理流程数据集获取数据集获取平台：Kaggle，天池，DataFountain，coco，科大讯飞，具体获取方式就是上他们得官网搜索你想要的数据集的关键字即可。、对图片进行清洗，与我们任务目标不符合的数据集，比如分割任务的标签文件过于粗糙，可以进行舍弃，这一部分一般是人工进行筛选有些数据集已经有了标注，但是有些数据是没有进行吧标注的，所以对于没有标注的数据集还需要自己进行标注图片数据预处理的方法，一般是标准化，标准化由中心化和归一化构成，可以理解为中心化，将原本中心不在原
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。