一、什么时候会遇到训练数据少的情况?
在机器学习和深度学习中,遇到训练样本不足的情况通常发生在出现了新的任务、高昂的采集数据成本,稀有事件或小众领域等。接下来我展开说三种情形并分别举个例子。
(1)出现新的任务
当面临全新的研究方向和技术挑战时,比如早期的人脸识别、自动驾驶技术的研发阶段,初期可用的训练样本数量较少。
例如:在自动驾驶领域中,随着L4、L5级别全自动驾驶技术的发展,需要对复杂城市道路环境中的各种交通参与者行为、天气变化、施工路段等进行实时准确的识别与决策。这是一个相对较新的任务,收集这些极端情况下的驾驶数据就需要全新的数据采集方案,包括在不同地点部署大量传感器和摄像头设备,以及组织专门车队进行实际路测。
(2)高昂的数据采集成本
在医疗、金融等领域,高质量标注的数据往往需要专业知识和人力投入进行标记,这会导致高成本和低效率,从而限制了训练集的大小。
例如:在遥感卫星应用中,高分辨率地球观测数据对于环境监测、资源管理等方面至关重要,但发射和运营卫星的成本巨大,同时每张高清卫星图片的获取也需要投入相当高的资金,这就构成了高昂的数据采集成本。
(3)小众领域或稀有事件
对于某些罕见的事件、疾病诊断、特殊领域的图像识别等任务,由于实际发生频率低或者获取数据难度大,可能收集到的数据量非常有限。
例如:在天文物理学中,探测到黑洞