开源NLP标注工具及NLP数据集

291 篇文章 2 订阅
202 篇文章 13 订阅

https://www.i4k.xyz/article/weixin_44532659/105126051

开源NLP标注工具技术分享
数据堂 AI-Lab

一、什么是标注平台
自然语言处理标注工具是指通过可视化界面,以清晰、快捷的方式对文本数据进行标注的工具,该工具通常以系统形式展现,包含前端展示、后端系统与数据库三部分组成。

二、自然语言标注平台能做什么
文本分类(对文本类型进行划分,如情感分类、企业类型分类等)
命名实体识别(对文本实体进行标注,如人名、地名、实体名等等)
关系抽取任务(对文本中词关系,如主谓宾等,或因果关系等)
机器翻译任务(通过平行语料,构建翻译对)
其他NLP相关任务

三、标注工具汇总
doccano
Doccano是一个针对标注员的开源文本注释工具。它提供了文本分类、序列标记和序列到序列任务的标注功能。因此,您可以为情感分析、命名实体识别、文本摘要等创建带标签的数据。该标注工具支持多种语言,不会因为语言造成数据难以读取等问题,还能够自动进行线下学习

Doccano平台优势
合作标注:可以进行多人合作,分配标注任务。
语言独立性:你可以对任何语言的文本进行标注。在使用doccano的人群中,已知有英语,中文,日语,阿拉伯语,印度尼西亚语。
自动标注:对一个文本进行了一部分标注后,后台通过学习,能自动对文本进行标注,提高标注效率。

环境依赖:
Python 3.6
Django 2.0.5+
Google Chrome(highly recommended)

地址:https://github.com/chakki-works/doccano

YEDDA
YEDDA是一个针对实体类的开源文本注释工具。它提供了序列标记的标注功能。该标注工具一个轻量级但高效的文本边界(span)注释的开源工具。YEDDA为文本跨度标注提供了一个系统的解决方案,从协作用户标注到管理员评估和分析。它克服了传统文本注释工具效率低下的问题,通过命令行和快捷键对实体进行注释,这些实体可配置自定义标签。

该标注工具的优势在于
高效:它支持快捷方式和命令行模式,以加速注释过程。
智能化:为用户提供实时系统建议,减少重复标注。
为客户端程序,减少部署系统难度

环境依赖:
Python 3.4+

地址:https://github.com/jiesutd/YEDDA

Chinese-Annotator
该平台有几大特性,标注过程背后含有智能算法,将人工重复劳动降到最低此外,标注界面显而易见地友好,让标注操作尽可能简便和符合直觉。标注框架如下图所示,是一个较为完整的系统,包括前端、后台与数据库。

该标注工具的优势在于
主动学习算法,能够通过在线学习完成预识别工作
标注界面清晰明了,操作简便

环境依赖:
python3.6
virtualenv
mongodb

地址:https://github.com/deepwel/Chinese-Annotator

IEPY
IEPY是一个专注于关系提取的信息提取开源工具。举一个关系提取的例子,如果我们试图在以下位置找到出生日期:“约翰·冯·诺伊曼(John von Neumann,1903年12月28日至1957年2月8日)是匈牙利和美国的纯数学和应用数学家,物理学家,发明家和数学家。”IEPY的任务是将“John von Neumann”和“December 28, 1903”识别为“was born in”关系的主题和客体

该标注工具的优势在于
系统较为完整,有用户管理功能
主动学习算法,能够通过在线学习完成预识别工作

环境依赖:
Ubuntu
Python
Stanford CoreNLP
Java

地址:https://github.com/machinalis/iepy

DeepDive
Deepdive与IEPY类似,也是针对信息抽取类型任务的开源标注工具,deepdive非常适合信息抽取,是构建知识库的利器。能够基于词性标注、句法分析等通过各种文本规则实现实体之间关系的抽取,同时可面向异构、海量的数据。

该标注工具的优势在于
界面比较简洁,适合于大量关系抽取任务

环境依赖:
Ubuntu
Python
Stanford CoreNLP

地址:http://deepdive.stanford.edu

BRAT
NLP基本上都是监督学习,而监督学习需要海量人工标注的语料,越多越好。而标注文本是一个很繁琐的工作,有一个好用的工具会帮助很多。brat可以用于各种NLP任务,该工具是为实体识别和关系抽取设计的。brat服务器是一个Python程序,默认情况使用Ubuntu系统,网页浏览器使用谷歌Chrome。

该标注工具的优势在于
标注实体的同时可以进行关系的标注

环境依赖:
Ubuntu
Python
apache2

地址:https://github.com/nlplab/brat

标注工具对于数据生产任务至关重要,一个好的标注工具能够大大减少标注过程中出现的问题,减少标注人员出现的错误,提高数据生产效率与数据质量。

四、NLP数据

1万中文新闻语料标注
1 万条中文新闻事件标注数据,每篇新闻均包含一个或多个事件,对每个事件进行了标注。数据以xml格式存储,该数据可用于自然语言理解等任务。

27亿条社交评论类内容数据
社交评论类内容数据,总计约 27 亿条左右;其中会有部分重复内容;该数据可用于自然语言理解等任务。

5万条中文社交评论类句法标注数据
5万条中文社交评论类句法标注数据,进行依存句法标注,覆盖娱乐、财经、科技、时尚、体育、文化、社会等不同类别,数据可用于自然语言理解研究等任务,该数据可用于自然语言理解等任务。

  • 2
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
基于PyTorch的自然语言处理(Natural Language Processing,NLP)是一种利用PyTorch框架进行文本处理和语言理解的技术。PyTorch是一个开源的深度学习框架,它提供了丰富的工具和库,使得构建和训练NLP模型变得更加简单和高效。 在基于PyTorch的NLP中,常用的任务包括文本分类、情感分析、命名实体识别、机器翻译等。以下是一些常见的PyTorch库和技术,用于构建NLP模型: 1. torchtext:torchtext是一个用于数据预处理和加载的库,它提供了一些方便的功能,如文本分词、词向量加载、数据集划分等。 2. torch.nn:torch.nn是PyTorch中用于构建神经网络的模块,它提供了各种层和激活函数,可以用于构建文本分类、序列标注等任务的模型。 3. transformers:transformers是一个用于自然语言处理的库,它提供了各种预训练的模型,如BERT、GPT等。这些模型可以直接加载并在自己的任务上进行微调。 4. torchtext.data:torchtext.data是torchtext库中用于处理数据的模块,它提供了一些方便的功能,如数据加载、数据预处理、数据迭代器等。 5. torchtext.vocab:torchtext.vocab是torchtext库中用于处理词汇表的模块,它提供了一些常用的词向量加载和词汇表构建的功能。 6. torch.optim:torch.optim是PyTorch中用于优化模型的模块,它提供了各种优化算法,如SGD、Adam等。 7. torchtext.datasets:torchtext.datasets是torchtext库中用于加载常见NLP数据集的模块,如IMDB、SNLI等。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值