高质量数据是机器学习的命脉,创建合格的数据集对模型培养至关重要,本文将简要介绍自定义数据集的6个关键步骤:
选择收集方式
数据集收集有三种方式,第三方购买、开源平台收集、手动收集。
在手动收集方面,可以利用数据抓取工具帮助收集部分素材,也可使用自己的设备,如相机或传感器。
以手动收集自动驾驶自定义数据集为例,自动驾驶公司在车上配备摄像头、激光雷达传感器等设备,便驾驶多辆汽车在城市街道徘徊,收集视觉数据。
分层收集数据
在收集足量数据后,需将大数据分解为较小数据集。
分层可将小型数据集分批套入模型中,并适时调整,在模型性能及产生最佳结果所需的时间和成本方面,通常需要分三到四个层级的数据集才能实现最佳效果。
使用分层方法进行数据收集,将显着降低由低质量数据废弃模型的风险,防止数据中出现不必要的偏差,及时根据结论调整试验方向。
验证数据
验证数据集能确保数据质量合乎指标(即方差、质量、数量、密度) 。在开始标注前,这是防止因偏差导致再次收集数据的最佳时机。许多人会忽略这一步骤,但验证数据至关重要,数据收集质量可以确保接下来的操作步骤更加顺利。
标注数据
确认获得高质量数据后,下一步将开始项目中最耗时的任务:数据标注。
通常,数据标注的劳力有三种选择:
丨自己标注
丨第三方平台众包
丨拥有自身标注平台的技术类标注公司
数据标注依赖于优秀的标注平台,按标注类型可分为图像、点云、语音、视频等类型,以曼孚科技的SEED平台为例