中文文本标注工具调研以及BRAT安装使用

本文详细介绍并对比了多种文本标注工具,如BRAT、Chinese-Annotator、YEDDA等,适用于不同类型和规模的文本标注需求。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

背景:最近的工作需要对文本先进行标注,然后才可以做接下来的文本分类工作。

原来文本数量少的时候可以手工标注,随着文本数量的增多,需要借助标注工具,调研了目前常用的几种:

更多详细信息请联系https://www.jianshu.com/u/50ba27f06c3d

1,BRAT  https://github.com/nlplab/brat

首先是BRAT,http://brat.nlplab.org/ 这是很早以前出现的一个工具,基于web的文本标注工具,主要用于对文本的结构化标注,用BRAT生成的标注结果能够把无结构化的原始文本结构化,供计算机处理。利用该工具可以方便的获得各项NLP任务需要的标注语料面向unix-like系统

最大的特点是在标注实体的同时可以进行关系的标注。

?

选定brat后,接下来介绍如何使用brat

1安装brat

如果你是win10系列,那么你需要一个unix-like环境,比如

通过虚拟机virtualBox,Ubuntu18.04  https://blog.csdn.net/zcooa/article/details/80615743

或者通过在win上安装cgwin来实现 cgwin https://blog.csdn.net/heshushun/article/details/78664384

如果你在osx或者linux系统上就可以直接按照下面安装

我们是有一个服务器,所以我就直接放server上了

先下载,http://brat.nlplab.org/installation.html,brat-v1.3_Crunchy_Frog.tar.gz这个文件

然后解压,运行即可

tar -xf brat-v1.3_Crunchy_Frog.tar

cd brat-v1.3_Crunchy_Frog

./install.sh –u

python standalone.py #(不可用python3)
评论 46
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值