北语发布 | 汉语学习者文本多维标注数据集YACLC V1.0 -- 文本纠错方向

我组杨尔弘教授于2021年12月30日出席北京智源人工智能研究院自然语言处理前沿技术开放日活动,并汇报了汉语学习者文本多维标注数据集建设的最新成果。智能辅助语言学习是跨自然语言理解与生成两个方面的研究任务,对学习者产生的文本进行错误识别、并修改成为符合母语习惯的语句,需要知识指导。本数据集包含2000余篇汉语学习者文本,共计30000余句,由北京语言大学BLCU-ICALL组组织开发,召集具有汉语国际教育专业背景的标注人员对文本中的错误进行标注、改正,并给出语句的流利程度,形成具有多维信息的标注数据集,可服务于汉语自动语法纠错与评判,第二语言习得等研究。

f7d870079c335490b77cf25655959d2d.png

91018c8541a1320fd2d949aa5097ca31.png

标注体系

我们结合汉语自身的特点,基于粒度为词、最小改动、忠于原意和多维度标注四项标注原则,建立了一套新的汉语学习者语料库标注体系,创新点在于:

1)设计纠正偏误和提升流利度的标注方式,由多位标注员对同一句子进行标注,提供多维度的多种标注结果;

2)简化偏误类型为成分缺失、成分冗余、词汇误用、语序错误,降低标注难度;

3)对句子进行可接受度评分,并以此限制每种评分对应的标注方式,提升标注质量;

4)基于篇章级别信息,对偏误句的上下文依赖性进行分级标注。

标注实践

我们招募了百余位汉语国际教育、语言学及应用语言学等专业的研究生,组成标注员团队,并搭建了一个可供多人在线的众包标注平台,分阶段地开展偏误标注和审核工作。

79caafc0ce875730c1f187d56eb8bf7a.png

标注界面示意图

95d6683df79fb54458da16021e6855e9.png

多人标注任务界面

fe03845112a334a925bac6e8762f68ed.png

逐句审核界面

YACLC V1.0数据获取

本次发布的汉语学习者文本多维标注数据集YACLC V1.0,其训练集规模为8000条,每条数据包括原始句子及其多种纠偏标注与流利标注;验证集和测试集规模都为1000条 ,每条数据皆包含原始句子及其全部纠偏标注与流利标注。关于数据集详细情况见:

http://cuge.baai.ac.cn/#/dataset?id=21&name=YACLC

github地址:https://github.com/blcuicall/YACLC

编辑:王莹莹 孔存良 谢晨晖 王梦焰

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值