一、背景
目前就我查到的资料大多使用labelimg标注数据集,然后人工划分训练集和验证集,这种方法有些繁琐,需要耗费大量时间,这里介绍一种较为简单的处理数据集方法。
二、解决方案
首先介绍一个下载数据集的网站开放数据集- 飞桨AI Studio星河社区 - 人工智能学习与实训社区 (baidu.com)
然后是本次的重点网站Workspace Home (roboflow.com)
1、首先进入该网站,建议注册一个Google账号用Google账号登录,因为很多国外网站都可以直接使用Google账号登录。进入后选择创建项目
2、创建项目后可以填写项目名和标注标签
3、创建后来到下面这个界面
在左侧的Classes(分类标签)可以添加yolo想要检测的类别标签
4、选择左侧的upload data上传数据集
5、导入后保存然后继续,来到下面这个界面
选择第三个自己标注数据集
此处可以忽悠你的朋友或者你的队友和你一起快乐标注数据集 ,点击下面的assign images会自动分配标注数据集的任务
6、接下来是常规的标数据集环节,跟labelimg差不多
7、标注完后添加进数据集
8、选择创建新版本
9、选择数据预处理和数据增强的方法(这一步真的省了很多事)
最后一步选择数据扩增的倍数,我这里是500张车牌图片扩增到1200张图片
10、导出数据集
导出选项中可以选择导出为yolo什么版本
导出的文件甚至连data.yaml文件都帮你写好了,真的哭死
导出后的效果如下图:
三、总结
使用了roboflow网站简化了数据集的处理,对于一些不开源的数据集、小数据集或者对现有数据集不满意想要改变的很有帮助。