竞品分析:
Label Studio 多模态数据标注首选,当然也可以做文本标注,但是角色权限管理没有doccano完善。
BRAT 老牌文本标注工具,擅长关系标注,构建知识图谱数据集比较有优势。界面比较粗超。
Doccano:提供了文本分类,序列标注和序列到序列的标注功能,可以为情绪分析,命名实体识别,文本摘要等创建标记数据。
Doccano标注平台UI风格不错。
主要特点:
- 数据导入导出
- 标签添加
- 角色权限管理
- 能否实现单账户同时标注,同一条数据多人标注(背靠背方式也是常用的一种标注方式,用于提高标注质量)
导入与导出
支持多文件上传,导入文件格式可以是文本, json, CoNLL(常用于NER),导出文件为json。唯一不足时多文件,不能自动区分。不过可以通过json格式增加额外的字段来实现这一功能。
标签添加
支持自定义标签颜色,标签对应的值,堪称傻瓜式配置。
角色权限管理
用户角色分为标注人员,审核人员和超级管理员。
增加用户可以在 http://127.0.01:8000/admin/ 中添加,或者命令行 doccano createuser --username user --password pass
额外功能
单一账户实测可以同时标注,多账户可以在项目中设置是否共享标注结果。
除此之外,标注平台还包含一些统计功能和辅助功能。
标注平台使用注意事项:
- 如果有预标注标签,下标是不计算空格的,否则标签很容易跑偏。
- 尽量保证导入数据无BOM utf-8格式。
- Label的key范围只有0~9 a~z,如果生成文件超过这个范围,会无法导入哟。
参考:https://blog.csdn.net/liuxing93619/article/details/120792216