背景:最近的工作需要对文本先进行标注,然后才可以做接下来的文本分类工作。
原来文本数量少的时候可以手工标注,随着文本数量的增多,需要借助标注工具,调研了目前常用的几种:
更多详细信息请联系https://www.jianshu.com/u/50ba27f06c3d
1,BRAT https://github.com/nlplab/brat
首先是BRAT,http://brat.nlplab.org/ 这是很早以前出现的一个工具,基于web的文本标注工具,主要用于对文本的结构化标注,用BRAT生成的标注结果能够把无结构化的原始文本结构化,供计算机处理。利用该工具可以方便的获得各项NLP任务需要的标注语料。面向unix-like系统
最大的特点是在标注实体的同时可以进行关系的标注。
选定brat后,接下来介绍如何使用brat
1安装brat
如果你是win10系列,那么你需要一个unix-like环境,比如
通过虚拟机virtualBox,Ubuntu18.04 https://blog.csdn.net/zcooa/article/details/80615743
或者通过在win上安装cgwin来实现 cgwin https://blog.csdn.net/heshushun/article/details/78664384
如果你在osx或者linux系统上就可以直接按照下面安装
我们是有一个服务器,所以我就直接放server上了
先下载,http://brat.nlplab.org/installation.html,brat-v1.3_Crunchy_Frog.tar.gz这个文件
然后解压,运行即可
tar -xf brat-v1.3_Crunchy_Frog.tar
cd brat-v1.3_Crunchy_Frog
./install.sh –u
python standalone.py #(不可用python3)