管理数据标注项目的最佳实践
一、 引言
2019年秋季,彭博社举办了一次研讨会,目标是记录管理标注项目的最佳实践。
数据标注项目的阶段:定义标注项目、计划时间表、选择劳动力、选择标注工具、创建标注指导准则、培训员工、管理正在进行的标注、使用标注。
三、 定义标注项目
考虑预算、可用资源和时间表。
考虑如何使用标注,包括标注是用于**自动化(例如,训练机器学习模型)**还是直接传递给目标用户。
"微任务"是需要人类智能才能完成的最小工作单元。
六、选择标注工具
工具选择的主要驱动因素应该是确保数据隐私和员工的访问。
建立所需的 UI 功能
员工应该能够轻松地:访问项目的书面指南和更新。
七、标注指南中应包含的内容
标注指南应作为标注项目的主要参考点。工作人员应通过标注工具轻松访问它们。标注指南还应 使用示例说明每个标签。
数据标注团队的领导
摘要
人们虽然对机器学习了解很多,却很少关注管理和领导标注工作的方法和注意事项。 本文介绍了几个指标,用于衡量和监控大型标注团队的性能和质量。
一、介绍
提供了有关标注团队的管理和领导建议
允许标注者创建关联和事件,在标记的项目之间建立联系。
二、标注人力的背景
该工具还允许标注者创建关联和事件,在标记的项目之间建立联系。
标注团队每周审查标注的质量,管理团队每月审查一次,以监控进度并确保质量。
三、IAA(Inter Annotator Agreement,标注员间共识)
标注需要两个认知任务,识别和分类。
四、建议的质量指标
我们建议将指标分为两类:质量指标和计划指标。 两者对于管理标注工作都很重要。
标注密度、文档速率、标记速率、利用率。