在机器学习中,数据标注是为原始数据(图像、文本、语音、视频、点云等)上的目标或事件标注丰富的标签以为机器学习模型提供理解数据上下文的能力的过程。例如,标注标签会说明图片中是否包含汽车和行人、在语音文件中的发音人说了哪些词、或者医学图像中是否包含病变细胞等,各种应用场景都需要数据标注,其中包括计算机视觉、语音识别和自然语言处理几个大的范畴。
成功的机器学习模型建立在大量的高质量训练数据的基础之上,但是,获取此类高质量数据标注的过程却十分耗时且昂贵,这就是为什么大多数企业都在寻找自动化数据标注的方法。虽然自动化能够大幅度节约成本,但是其中也包含一些坑,导致发生您预想之外的额外成本,并让您的项目周期耗费更多的时间。
在本文中,我们将详细阐述使用预先数据标注的隐藏风险和复杂性,这些风险和复杂性可能会在数据标注自动化过程中遇到,以及如何优化。
</