数据标注工具调研
中文nlp领域比较困扰的点在于缺乏数据,尤其像事件抽取这样的任务,人工标注非常耗时费力,而且很容易出错,所以想要搭建一个针对事件抽取的标注系统。在调研如何造轮子时,发现有些开源工具或许可以用,或许可以避免这部分的时间消耗。
一、开源数据标注工具
1. BRAT
- 安装环境:osx或者linux系统,windows(linux虚拟环境)
- 标注任务支持:实体关系、实体识别、事件抽取标注
- 标注语言支持:可适配到中文标注
- 标注任务扩展:可适配到Aspect-Based Sentiment Analysis方向数据标注
- 相关🔗
官方介绍
BRAT项目github地址
brat使用
2. prodigy
- 标注任务支持:实体抽取,分类,情感分析
- 标注语言支持:只针对英文
- 特点:基于主动学习的标注工具
3. Chinese-Annotator
- 标注任务支持:中文命名实体识别,中文关系识别,中文文本分类
- 安装环境:面向OSX
- 特点:灵感来源Prodigy,基于主动学习的标注系统,同时支持用户标注
- 相关🔗
Chinese-Annotator项目github地址
4. YEDDA
- 标注任务支持:实体抽取、实体关系、事件抽取
- 标注语言支持:支持大部分语言,包括英语、中文
- 特点:基于python2、可标记种类数只有7种
- 相关🔗:
YEDDA项目github地址
5. IEPY
- 标注任务支持:主要关系抽取
- 相关🔗:
IEPY项目github地址
官方说明文档
6. Deepdive
- 相关🔗
DeepDive
7. snorkel
8. Doccano
-
标注任务支持:实体识别,情感分类,机器翻译
-
标注语言:多语言
二、总结
目前来看要做中文领域事件抽取样本标注,可以选用的是YEDDA和BRAT。