【机器学习300问】29、训练数据少该怎么办?数据增强

一、什么时候会遇到训练数据少的情况?

        在机器学习和深度学习中,遇到训练样本不足的情况通常发生在出现了新的任务、高昂的采集数据成本,稀有事件或小众领域等。接下来我展开说三种情形并分别举个例子。

(1)出现新的任务

        当面临全新的研究方向和技术挑战时,比如早期的人脸识别、自动驾驶技术的研发阶段,初期可用的训练样本数量较少。

        例如:在自动驾驶领域中,随着L4、L5级别全自动驾驶技术的发展,需要对复杂城市道路环境中的各种交通参与者行为、天气变化、施工路段等进行实时准确的识别与决策。这是一个相对较新的任务,收集这些极端情况下的驾驶数据就需要全新的数据采集方案,包括在不同地点部署大量传感器和摄像头设备,以及组织专门车队进行实际路测。

(2)高昂的数据采集成本

        在医疗、金融等领域,高质量标注的数据往往需要专业知识和人力投入进行标记,这会导致高成本和低效率,从而限制了训练集的大小。

        例如:在遥感卫星应用中,高分辨率地球观测数据对于环境监测、资源管理等方面至关重要,但发射和运营卫星的成本巨大,同时每张高清卫星图片的获取也需要投入相当高的资金,这就构成了高昂的数据采集成本。

(3)小众领域或稀有事件

        对于某些罕见的事件、疾病诊断、特殊领域的图像识别等任务,由于实际发生频率低或者获取数据难度大,可能收集到的数据量非常有限。

        例如:在天文物理学中,探测到黑洞

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值