机器学习的命脉：自定义数据集的6个关键步骤，你知道几个？

久久kf

于 2022-08-09 14:48:24 发布

阅读量242

点赞数

文章标签：机器学习人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_71000915/article/details/126247625

版权

本文介绍了创建自定义机器学习数据集的六个关键步骤：选择收集方式，如购买、开源或手动；分层收集数据以优化模型性能；验证数据确保质量；耗时的标注数据过程；验证模型以检查数据对算法的影响；以及重复上述步骤以持续改进。高质量数据对于机器学习的成功至关重要。

摘要由CSDN通过智能技术生成

高质量数据是机器学习的命脉，创建合格的数据集对模型培养至关重要，本文将简要介绍自定义数据集的6个关键步骤：

选择收集方式

数据集收集有三种方式，第三方购买、开源平台收集、手动收集。

在手动收集方面，可以利用数据抓取工具帮助收集部分素材，也可使用自己的设备，如相机或传感器。

以手动收集自动驾驶自定义数据集为例，自动驾驶公司在车上配备摄像头、激光雷达传感器等设备，便驾驶多辆汽车在城市街道徘徊，收集视觉数据。

分层收集数据

在收集足量数据后，需将大数据分解为较小数据集。

分层可将小型数据集分批套入模型中，并适时调整，在模型性能及产生最佳结果所需的时间和成本方面，通常需要分三到四个层级的数据集才能实现最佳效果。

使用分层方法进行数据收集，将显着降低由低质量数据废弃模型的风险，防止数据中出现不必要的偏差，及时根据结论调整试验方向。

验证数据

验证数据集能确保数据质量合乎指标(即方差、质量、数量、密度) 。在开始标注前，这是防止因偏差导致再次收集数据的最佳时机。许多人会忽略这一步骤，但验证数据至关重要，数据收集质量可以确保接下来的操作步骤更加顺利。

标注数据

确认获得高质量数据后，下一步将开始项目中最耗时的任务：数据标注。

通常，数据标注的劳力有三种选择：

丨自己标注

丨第三方平台众包

丨拥有自身标注平台的技术类标注公司

数据标注依赖于优秀的标注平台，按标注类型可分为图像、点云、语音、视频等类型，以曼孚科技的SEED平台为例

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。