brat

BRAT官网地址:http://brat.nlplab.org/ ,基于web的文本标注工具,主要用于对文本的结构化标注,用BRAT生成的标注结果能够把无结构化的原始文本结构化,供计算机处理。利用该工具可以方便的获得各项NLP任务需要的标注语料。面向unix-like系统。

安装
本地用的是win10系列,那么需要一个unix-like环境,比如
通过虚拟机virtualBox,Ubuntu18.04
或者通过在win上安装cgwin来实现 cgwin

先下载,http://brat.nlplab.org/installation.html,brat-v1.3_Crunchy_Frog.tar.gz这个文件,然后解压,运行即可
tar -xf brat-v1.3_Crunchy_Frog.tar
cd brat-v1.3_Crunchy_Frog
./install.sh –u
这里会提示你输入username,可以自己设置,将来标注的时候,支持多人标注。
python standalone.py #(不可用python3)
然后访问127.0.0.1:8001就可以了

安装完成后,做中文标注
支持中文
brat本身是不支持中文的,如果在配置文件里定义中文会报错,解决办法是./server/src/projectconfig.py文件的第163行,加上中文支持即可: 
n = re.sub(u’[^a-zA-Z\u4e00-\u9fa5<>,0-9_-]’, ‘_’, n)

导入collection
导入文件的时候,必须要文件符合:文件名.xxx和文件名.ann 一一对应的格式即可
直接将包含txt数据集的文件夹放置到安装文件下一个data的目录下,然后使用命令:
find 文件夹名称 -name ‘*.txt’|sed -e ‘s|.txt|.ann|g’|xargs touch
其意思是对每个txt文件都创建一个空的标引文件.ann,因为BRAT是要求的collection中,每个txt文件是必须有一个对应的.ann文件的,方便放置标引内容,这个ann文件的格式也挺规范
将要标注的文件导入项目中data/路径下即可,可以查看其中examples文件下以及tutorials文件下帮助文档。

具体标注配置
brat通过配置文件来决定对语料的标注可以满足何种任务,包括四个文件
          annotation.conf: annotation type configuration
          visual.conf: annotation display configuration
          tools.conf: annotation tool configuration
          kb_shortcuts.conf: keyboard shortcut tool configuration
一般只需要修改annotation.conf即可,该文件用于对标注的数据结构进行配置,典型的配置如下:
 每个文件需要包含四类模块:entities、relations、events、attributes。各个模块都可以定义为空,其中
entities用来定义标注的实体名称,其格式为每行一个实体类型,比如:人名、地名、英雄名、技能名等,可以采用tab来增加二级标注,如下面的实体标注中技能下的二级标注战斗技能等。

relations用来定义实体间的关系,格式为每行定义一种关系,第一列为关系类型,随后是用逗号分隔的ArgN:实体名,用来表示关系的各个相关者。比如例子中,同盟关系是存在于英雄之间

Tips:
tab:打开文件浏览器
键盘左:回到上一个文件
键盘右:进入下一个文件

另外,工具栏中Data项点击后可以下载到当前文件未parsing的标注数据

Option中,浏览相关的Visual options基本不需要说明。layout density可以根据标注内容的复杂程度而定,只做文本标记可以开到Dense;Visual A… labels应该是指事件,对文本标记之间的关系是没用的。
标注
标注分点的标注和边的标注两种行为:
点的标注:通过光标框定一个文本串,选择标记类别
边的标注:按住点向外拖到目标点,如果类型允许就会为你加边。
建议打开Option,把Annotation Option改为Normal,而不是Careful。否则你完成选择之后,还需要额外点一次Ok才可以。

如有疑问可以访问:https://www.jianshu.com/p/3a70ee9ad632

http://ws.nju.edu.cn/blog/2018/06/brat%E6%A0%87%E6%B3%A8%E7%B3%BB%E7%BB%9F%E8%AF%B4%E6%98%8E/

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值