Doccano自定义自动标注功能

Doccano自定义自动标注功能

Doccano是什么,怎么安装就不介绍了,上GitHub上面安装就行。https://github.com/doccano/doccano,这里实验环境是在Linux系统下用docker拉的。

自定义自动标注auto labeling的接口

相关链接:https://github.com/doccano/doccano/issues/1417
这里实验主要是怎么将doccano中的auto labeling的接口替换成自己的
首先对进行进行开发这里就不服展示了,对接口传入数据后,会对数据进行分析,并返回一个label,对接口进行测试,返回格式为固定的格式。这里返回结果中的“无法判断”,就是对传入的text数据的标注结果。
在这里插入图片描述

打开doccano,选择要进行自动标注的项目!
在这里插入图片描述

添加label,这里的lebel要在自动标注的接口中要存在。
在这里插入图片描述

开始自定义Auto labeling接口
在这里插入图片描述

选择Custom RESR Request
在这里插入图片描述

添加字段
在这里插入图片描述

添加接口地址和请求方法,添加Params。
在这里插入图片描述

输入要标注的文本,点击test,出现结果后,点击text
在这里插入图片描述

点击 Next后 ,进入到设置映射模板(Set mapping template)选项卡,在Mapping Template的文本框中输入模板:

[
    {% for item in input %}
        {
            "label": "{{ item.result }}"
        }{% if not loop.last %},{% endif %}
    {% endfor %}
]

然后点击test后,点击text进入下一步
在这里插入图片描述

点击add添加,From填写上面result解析出来的结果,To选择对应Doccano项目里设置的标签:
在这里插入图片描述
在这里插入图片描述

进入到标注页面点击魔法棒启动自动标注,进行自动标注
在这里插入图片描述

其他标注方法

这里展示的是对整个文本数据进行标注的方式。
如果需要对文本中的某些字符串进行标注。也是类似的方式。只是接口的返回格式需要改变

[
	{
		"label":"GPE",
		"start_offset":17,
		"end_offset":23
	}
]

遇到的问题

在定义接口是,可能会因为版本或者环境的问题出现No data available的情况。网上有人是安装auto-labeling-pipeline==0.1.21库解决了这个问题,相关链接https://github.com/doccano/doccano/issues/2282。但是我使用这个方式并没有用。
在这里插入图片描述
这里解决No data available的问题方式是在/admin目录下面,去修改auto labeling configs。在里面进行配置。注意在label mapping里面要添加对应的标签的一个映射(如果我没有理解错的话),例如你接口返回的结果是

"lable":"舆论"

那么在label mapping里面就填

{"舆论": "舆论"}
#如果是多个标签则如下所述:
{"严重舆情": "严重舆情", "轻微舆情": "轻微舆情", "非舆情": "非舆情", "无法判断": "无法判断"}

在这里插入图片描述
在这里插入图片描述
最后,注意打开自动标签的按钮,也就是那个魔法棒后,它是要在翻页的时候才能正常触发,在它样本标注的页面点开魔法棒就会因为id错误导致触发不了。同时如果在服务器上测试时,尽量不要在本地使用127的地址进行接口的开发,这个为什么就不阐述了。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值