标注经验总结

标注任务

数据源

  • 如果标注数据分布跟后续模型面对的场景数据很不一样,会导致模型线上效果差,因此标注数据需尽量模拟线上流量分布
  • 分类或序列标注问题,如果某类数据标注量太少或太多,也都会直接影响这类数据的指标,因此需要根据现有情况看是否需要补充某类数据

任务设计

尽量简化,用题目一致率衡量任务设计合理性,要求 题目一致率>70%

任务包

一般简单任务可设置一个任务包有多个题目,方面标注人员快速标注,但稍难或质量要求高的都需设置一个任务包只包含一个题目

任务流程

快速模式:标注-验收

解释:多人打标,业务方验收

特点:标注速度快(1人力/题),质量一般

适合场景:对质量要求不是很高,但需快速标注较多数据

通用模式:标注(投票)-检查-验收

解释:多人同时对同一题目打标(一般两人投票),标注小组长检查,业务方验收

特点:标注速度较慢(2.3人力/题),但质量高

适合场景:对质量要求较高的任务

高级模式:标注(机器人加入投票)-检查-验收

解释:多人同时对同一题目打标(机器人算一个人力,也就是预先由机器人打标),标注小组长检查,业务方验收

特点:标注速度较快(1.3人力/题),质量高

适合场景:对质量要求较高,模型已有较高指标(9成以上)做预测

任务大小

一般任务包含的题目数量不宜过多,2000条差不多,一个任务太多题目,会让任务周期很长,不便于及时调整任务配置及观察任务状态

标注人员

练习题

对于新任务,需要对标注人员有一个培养过程以及对规范的补充完善过程,可以布置一个练习题任务(题目数量控制在一两天能够标完),用于培训标注人员和完善规范,任务负责人务必及时答疑并验收发现问题及时抛出(这里平台需要一个机制能让标注人员快速学习错误)

质检人员选择

新任务一般不能直接指定某个人做质检,而该让这批人公平竞争,可先由负责人质检一部分数据(50到100个题目),再根据表现指定质检人员;在任务结束后观察每个人表现,如果质检人员质量不够高,需及时更换质检人员

标注人员质量跟踪

一个任务结束都需观察标注人员质量,警告质量垫底者,督促其学习

任务一致率

一致率90%以上的,题目难度:简单

一致率80%到90%的,题目难度:中等

一致率70%到80%的,题目难度:难

一致率70%以下的,题目难度:很难

任务验收

对于标注-检查-验收 模式的任务,一般标注一致的错误率很低,可抽检验收10%或全部默认通过

流入检查环节的需要重点验收:

一致率高于90%的,可抽检10%-20%,

一致率80%到90%的,可抽检20%-40%

一致率75%到80%的,可抽检30%-50%

一致率低于75%的,可抽检50%-100%

标注规范

  • 拉上业务方一起共同制定规范,有模糊的地方一定要跟业务方讨论出清晰的规范
  • 重点名词需给出解释

提升标注质量

采用通用模式

通用模式(标注-检查-验收)是所有模式里质量最高,但最耗人力的

及时沟通总结规范

发现标注错误,立马告知标注人员,指出错误点及原因,并总结沉淀相关规范

制定质量达标标准

要求标注同学标注质量达标,不达标的采取惩罚措施(1 不算工作量 2 长期不达标则辞退或换项目)

主动学习标注

采用主动学习标注弥补现有模型短板,能实现标注较少语料情况下得到较好效果,一般是模型效果达到80%准确率以后再启用主动学习

测试数据集调优

测试数据集一般不能太大,太多测试数据不便于优化数据质量,一般2000条

标注的测试集与模型diff,再过人工check或再次打标(一般数量较少则负责人直接check,较多则再次打标)

该操作是随着训练语料的不断增多,需多做几次,特别是有难度的任务,模糊性一般较强,随着规范的逐步成熟,标注质量也会越来越高,通过调优测试集能看到指标明显的提升

已有训练语料refine

对已有标注数据refine(将上部分标注数据不用做训练,其他数据训练,得到的模型预测未参与训练的数据,跟标注结果diff后再标注,然后让另一少部分数据重复上述过程,迭代多次后效果会有提升),该模式一般能明显提升已有标注数据准确率

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值