win安装doccano_支持多语言的文本标注工具——doccano

doccano是一款开源的、支持多语言的文本标注工具,适用于NLP任务的数据标注,包括情感分析、命名实体识别等。它支持快捷键操作,多人合作标注,且能处理多种语言的文本。尽管目前主要开发者是Hironsan,但欢迎更多开发者参与贡献。
摘要由CSDN通过智能技术生成

项目主页chakki-works/doccano​github.com

好久没写东西了,难得现在做NLP方面的工作,想着继续介绍一些NLP相关的东西。肥水不流外人田,正好最近我们组做了一个NLP标注工具,doccano。王婆卖瓜,我就来夸一夸吧。

先聊聊名字的由来。doccano的日语是【どっかの】,【どっか】是【どこか】的音变,而【どこか】的意思是“哪里”。doccano可以理解为“哪里的”,我猜着Hironsan(我们组的大神)起这个名字是想表示,“哪里都能进行标注”。这么一想果然是大神,起名字都这么讲究。怀着对自己推理的自信,我开心地向Hironsan求证了一下。

“其实就是documment anotation的缩写”,Hironsan尴尬地笑了笑。

“……”

你们这些家伙(组里的日本开发者)给项目起名字不都是用日语片假名吗!突然来个英语缩写是怎么个意思?!

注意到我尴尬的表情,Hironsan赶紧补充。”L君你说得没错,日语确实可以这么理解呢。”

嗯,您真是善解人意。

闲扯到此结束,下面好好介绍一下这个工具。

doccano——便利的NLP标注工具

作为一个NLP从业者,数据标注是重要的一环。有钱的金主自然可以花钱找人标注,不过很多小公司,学校研究室或者个人研究者并没有这样的富裕。但是自己手动标注的话又实在花时间,开发一个Web标注系统又比较麻烦。如果你也有这样的烦恼,放心吧,doccano就是你的贴心小帮手。

利用doccano可以对文本,序列进行标注。标注的结果支持情感分析,命名实体识别,文本摘要等任务。总结下来就3步,上传数据,标注,下载带有标签的数据。

这里有实际可以尝试的demo,下面进行简单介绍。

Demo介绍

这是一个序列标注的demo,用于命名实体识别任务。doccano最方便的一点是支持快捷键,比如在给【Person】这个实体标注的时候,直接敲击键盘上的【P】就能进行标注。

这个demo可以用于文本分类,主题分类。你可以给一篇文章添加不同的标签,进行multi-label预测。

这个demo是用于sequence to sequence任务的,比如机器翻译。因为一句话可以有多种翻译结果,故我们支持添加多种翻译结果。

doccano特性合作标注:可以进行多人合作,分配标注任务。

语言独立性:你可以对任何语言的文本进行标注。在使用doccano的人群中,已知有英语,中文,日语,阿拉伯语,印度尼西亚语,etc。

(future)自动标注:对一个文本进行了一部分标注后,后台通过学习,能自动对文本进行标注,提高标注效率。

依赖Python 3.6

Django 2.0.5+

Google Chrome(highly recommended)

至于具体的安装方法和使用方法,大家可以直接在项目主页中看到。这里就不做过多介绍了。

开发者募集

现在doccano的主力开发者只有Hironsan一个人,虽然也有爱好者提供了一些帮助,但是开发节奏还是比较慢的。所以这里也欢迎感兴趣的开发者对这个项目进行贡献。chakki-works/doccano​github.com

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值