【机器学习300问】29、训练数据少该怎么办？数据增强

小oo呆

已于 2024-03-14 04:24:30 修改

阅读量2.6k

点赞数 27

分类专栏：【机器学习】文章标签：机器学习人工智能深度学习

于 2024-03-08 21:42:37 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_39780701/article/details/136572136

版权

一、什么时候会遇到训练数据少的情况？

在机器学习和深度学习中，遇到训练样本不足的情况通常发生在出现了新的任务、高昂的采集数据成本，稀有事件或小众领域等。接下来我展开说三种情形并分别举个例子。

（1）出现新的任务

当面临全新的研究方向和技术挑战时，比如早期的人脸识别、自动驾驶技术的研发阶段，初期可用的训练样本数量较少。

例如：在自动驾驶领域中，随着L4、L5级别全自动驾驶技术的发展，需要对复杂城市道路环境中的各种交通参与者行为、天气变化、施工路段等进行实时准确的识别与决策。这是一个相对较新的任务，收集这些极端情况下的驾驶数据就需要全新的数据采集方案，包括在不同地点部署大量传感器和摄像头设备，以及组织专门车队进行实际路测。

（2）高昂的数据采集成本

在医疗、金融等领域，高质量标注的数据往往需要专业知识和人力投入进行标记，这会导致高成本和低效率，从而限制了训练集的大小。

例如：在遥感卫星应用中，高分辨率地球观测数据对于环境监测、资源管理等方面至关重要，但发射和运营卫星的成本巨大，同时每张高清卫星图片的获取也需要投入相当高的资金，这就构成了高昂的数据采集成本。

（3）小众领域或稀有事件

对于某些罕见的事件、疾病诊断、特殊领域的图像识别等任务，由于实际发生频率低或者获取数据难度大，可能收集到的数据量非常有限。

例如：在天文物理学中，探测到黑洞

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。