Brat标注工具部署笔记

简介

由于需要标注一些实体信息,所以在实验室的服务器上部署了一下brat,过程中参考了很多他人的文章,在这里简单记录一下部署的过程。

安装brat

环境

  • Linux
  • python2.7(使用3.6的时候出现了错误,换了python2.7问题就解决了)
  • apache2

下载brat安装包

进入主页 下载
点击右侧下载按钮下载

brat-v1.3_Crunchy_Frog.tar.gz

进入压缩文件存放目录 解压缩 然后进入文件夹

tar -xzvf brat-v1.3_Crunchy_Frog.tar.gz 
cd  brat-v1.3_Crunchy_Frog

安装

bash install.sh

然后按照提示设置账号密码,账号密码之后在设置文件中是可以修改添加的,在平台上需要登陆才能进行标注。

apache2安装配置

如果没有apache2 需要安装

sudo apt-get install apache2

修改apache配置

sudo vim /etc/apache2/apache2.conf

在打开的页面中加入

<Directory /home/*/public_html>
    AllowOverride Options Indexes FileInfo Limit
    AddType application/xhtml+xml .xhtml
    AddType font/ttf .ttf
    # For CGI support
    AddHandler cgi-script .cgi
    # Comment out the line above and uncomment the line below for FastCGI
    #AddHandler fastcgi-script fcgi
</Directory>
# For FastCGI, Single user installs should be fi
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
brat标注的ann文件转换为BIO格式可以分为以下几个步骤: 1. 读取ann文件,获取标注的实体和其对应的位置信息。 2. 将实体按照位置信息在原始文本中标记出来。 3. 将标记好的文本按照BIO格式进行标注。 下面是一个简单的Python代码示例,用于将brat标注的ann文件转换为BIO格式: ```python def ann_to_bio(ann_file, txt_file): # 读取ann文件,获取标注的实体和其对应的位置信息 entities = [] with open(ann_file, 'r', encoding='utf-8') as f: for line in f: if line.startswith('T'): fields = line.strip().split('\t') entity_id = fields[0] entity_type, start, end = fields[1].split() start = int(start) end = int(end) entity_text = fields[2] entities.append((entity_id, entity_type, start, end, entity_text)) # 读取txt文件,获取文本内容 with open(txt_file, 'r', encoding='utf-8') as f: text = f.read() # 将实体按照位置信息在原始文本中标记出来 entity_positions = [] for entity in entities: entity_id, entity_type, start, end, entity_text = entity entity_position = (start, end, entity_type) entity_positions.append(entity_position) entity_positions.sort(key=lambda x: x[0]) last_end = 0 annotated_text = [] for start, end, entity_type in entity_positions: annotated_text.append(text[last_end:start]) annotated_text.append('[{}]'.format(entity_type)) annotated_text.append(text[start:end]) annotated_text.append('[/{}]'.format(entity_type)) last_end = end annotated_text.append(text[last_end:]) # 将标记好的文本按照BIO格式进行标注 bio_tags = [] for token in annotated_text: if token.startswith('['): bio_tags.append('B-' + token[1:-1]) elif token.startswith('[/'): bio_tags.append('I-' + token[2:-1]) else: bio_tags.append('O') # 输出BIO格式标注结果 for token, bio_tag in zip(annotated_text, bio_tags): print('{}\t{}'.format(token, bio_tag)) ``` 使用时只需调用`ann_to_bio`函数,将`ann_file`和`txt_file`参数分别替换为实际的ann文件和txt文件路径即可。函数将输出BIO格式的标注结果。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值