项目主页chakki-works/doccanogithub.com
好久没写东西了,难得现在做NLP方面的工作,想着继续介绍一些NLP相关的东西。肥水不流外人田,正好最近我们组做了一个NLP标注工具,doccano。王婆卖瓜,我就来夸一夸吧。
先聊聊名字的由来。doccano的日语是【どっかの】,【どっか】是【どこか】的音变,而【どこか】的意思是“哪里”。doccano可以理解为“哪里的”,我猜着Hironsan(我们组的大神)起这个名字是想表示,“哪里都能进行标注”。这么一想果然是大神,起名字都这么讲究。怀着对自己推理的自信,我开心地向Hironsan求证了一下。
“其实就是documment anotation的缩写”,Hironsan尴尬地笑了笑。
“……”
你们这些家伙(组里的日本开发者)给项目起名字不都是用日语片假名吗!突然来个英语缩写是怎么个意思?!
注意到我尴尬的表情,Hironsan赶紧补充。”L君你说得没错,日语确实可以这么理解呢。”
嗯,您真是善解人意。
闲扯到此结束,下面好好介绍一下这个工具。
doccano——便利的NLP标注工具
作为一个NLP从业者,数据标注是重要的一环。有钱的金主自然可以花钱找人标注,不过很多小公司,学校研究室或者个人研究者并没有这样的富裕。但是自己手动标注的话又实在花时间,开发一个Web标注系统又比较麻烦。如果你也有这样的烦恼,放心吧,doccano就是你的贴心小帮手。
利用doccano可以对文本,序列进行标注。标注的结果支持情感分析,命名实体识别,文本摘要等任务。总结下来就3步,上传数据,标注,下载带有标签的数据。
这里有实际可以尝试的demo,下面进行简单介绍。
Demo介绍
这是一个序列标注的demo,用于命名实体识别任务。doccano最方便的一点是支持快捷键,比如在给【Person】这个实体标注的时候,直接敲击键盘上的【P】就能进行标注。
这个demo可以用于文本分类,主题分类。你可以给一篇文章添加不同的标签,进行multi-label预测。
这个demo是用于sequence to sequence任务的,比如机器翻译。因为一句话可以有多种翻译结果,故我们支持添加多种翻译结果。
doccano特性合作标注:可以进行多人合作,分配标注任务。
语言独立性:你可以对任何语言的文本进行标注。在使用doccano的人群中,已知有英语,中文,日语,阿拉伯语,印度尼西亚语,etc。
(future)自动标注:对一个文本进行了一部分标注后,后台通过学习,能自动对文本进行标注,提高标注效率。
依赖Python 3.6
Django 2.0.5+
Google Chrome(highly recommended)
至于具体的安装方法和使用方法,大家可以直接在项目主页中看到。这里就不做过多介绍了。
开发者募集
现在doccano的主力开发者只有Hironsan一个人,虽然也有爱好者提供了一些帮助,但是开发节奏还是比较慢的。所以这里也欢迎感兴趣的开发者对这个项目进行贡献。chakki-works/doccanogithub.com