最近在看命名实体识别这一块,因为要涉及到数据标注,所以我了解了一款实体标注工具BRAT。
BRAT(brat rapid annotation tool)
它是一款功能较全面的文本标注工具,可以标注实体,事件、关系、属性等,在标注实体的同时可以进行关系的标注,这使得其成为实体抽取、关系抽取和事件抽取的首选。
BRAT服务器是一个Python程序,默认情况使用Ubuntu操作系统,网页测览器使用谷歌浏览器。不过,brat本身是不支持中文的,如果在配置文件里定义中文会报错。
之所以选择它来标注,主要是因为BRAT 功能全,学术界用的较多。
BRAT下载链接:
安装配置BRAT相关博客参考:
我根据下边这篇博客成功安装好了brat,有一点需要提醒大家的是,brat 只支持python 2版本,不支持python 3版本!!!(用pyenv安装python 2.7.5版本一直失败,后来改成2.7.9版本安装成功了,有点玄学。。)
Brat标注工具(本地)安装及使用_P_jinsan的博客-CSDN博客_brat安装
其他的数据标注工具有:
Label Studio
它不仅可以用来标注文本NER任务,还可以用来标注文本分类、图像分类等等其他AI任务。
官网链接地址:Label Studio – Open Source Data Labeling
有一篇相关博文我感觉写的很好,可以作为参考:
命名实体识别(NER)标注神器——Label Studio 简单使用_PeasantWorker的博客-CSDN博客_ner标注工具
YEDDA/SUTDAnnotator
它是一个针对实体类的开源文本注释工具,提供了序列标记的标注功能,是一个轻量级且高效的文本边界注释的开源工具,支持键盘快捷键标注,用户只需选中文本并按快捷键如A,就会自动标注。适合做个人实验的轻量级实体标注。
标注结果参考brat,用.ann文件来保存,可以直接导出序列后的标注结果,十分方便。
希望可以帮助到大家~