1.数据的获取途径
通过AIStudio中的数据集功能可以获得各个比赛平台的大部分数据包括Kaggle、天池、讯飞,Github等,也有很多论文数据集可以自行搜索。
2.数据处理与标注
数据在获取到后,需要了解数据,筛除不适合的样本(即便公开数据集可能也需要筛除一部分)。
如果是自建数据集需要自己进行标准,常用的标注工具有labelimg、labelme、PPOCRLabel、ITK-SNAP(医疗图像数据)、easyDL(百度研发平台,使用比较简单 EasyDL-零门槛AI开发平台 (baidu.com))。
本人使用的是labelme,首先在anaconda创建虚拟环境。
conda create -n labelme python=3.6
完成后,激活环境,安装labelme(可能需要先安装别的依赖包)
conda activate labelme
conda install labelme=3.16.2
安装成功后,只需要进入添加labelme的虚拟环境,运行命令即可使用: