引言
问题
高质量和一致的标注对于成功开发健壮的机器学习模型至关重要。传统的机器学习分类器训练技术资源密集。它们涉及一个循环,领域专家标注数据集,然后将其传递给数据科学家来训练模型,审查结果并进行更改。这种标注过程往往耗时且效率低下,有时在几轮标注之后就会停滞。
影响
因此,相比于在复杂模型和算法方法上进行迭代以改善性能和修复边缘案例,投入较少的精力用于标注高质量的数据集。结果,机器学习系统的复杂性迅速增加。
此外,时间和资源的限制通常导致利用第三方标注者而不是领域专家。这些标注者在没有深入理解模型预期部署或使用的情况下执行标注任务,使得在更主观的任务中,对边缘或难例的一致标注成为挑战。
这需要领域专家进行多轮审查,导致意外的成本和延迟。这种漫长的循环还可能导致模型漂移,因为修复边缘案例并部署新模型需要更长时间,可能会损害其有用性和利益相关者的信任。
解决方案
我们建议通过使用人在循环系统,更直接地涉及领域专家,可以解决许多这些实际挑战。我们引入了一种新的框架,视频标注器(VA),它利用大型视觉语言模型的主动学习技术和零-shot能力,引导用户专注于逐渐更难的示例,增强模型的样本效率并降低成本。
VA将模型构建无缝集成到数据标注过程中,促进用户在部署前对模型进行验证,从而有助于建立信任和培养所有权