比赛 | 第一届古汉语分词与词性标注国际评测来啦

每天给你送来NLP技术干货!


来自:比特人文

294e08cc18743b58b8bb7e46efa6885a.png

背景:当下人工智能和数字人文浪潮风靡全球,现代汉语自动分析已取得很大成果。而古代汉语的自动分析研究相对薄弱,难以满足国学、史学、文献学、汉语史的研究和国学、传统文化教育的实际需求。古汉语存在字词、词语、词类的诸多争议,资源建设困难重重。因此,如何求得古代汉语分词与词性标注的客观评测就显得尤为重要。此次评测由国际语言资源与评测大会LREC2022的国际古代语言处理研讨会(LT4HALA)主办,针对先秦汉语(经典的文言文)的分词与词性标注任务,在国际上展开统一的评测,有利于综合评价目前学界已有古代汉语词法分析研究成果,更有利于发现、探讨当前研究进展的短板和不足,沟通众高校、研究单位一同推动古代汉语自动分析技术的研究。

01

评测简介

EvaHan2022是目前发布的致力于古代汉语分词与词性标注评测任务的首个国际评测。汉语词法分析在NLP领域内已拥有众多较为成熟的评测,诸如MUC、SemEval、CoNLL、EVALITA和SIGHAN等,但以往大都集中于现代汉语的评测任务。因此,本次发布的古代汉语分词与词性标注评测也将是首次开展的以古代汉语为目标的国际评测任务。本次评测主要有两个目标:

● 推动古代汉语资源及语言技术的发展

● 促进古代汉语有关领域学者之间的合作,吸引多学科研究者共同攻坚

EvaHan2022的参赛者需要完成分词(Word Segmentation)与词性标注(POS Tagging)的联合任务。本次国际评测组织者会为参赛者提供统一的测试数据集,并会评估参赛者最终提交数据的真实性。

02

评测方法

数据说明

原始文本

亟請於武公,公弗許。

词性标注

亟/d 請/v 於/p 武公/nr ,/w 公/n 弗/d 許/v 。/w

提供给参赛者一定规模的训练数据,格式如上表所示。每个词被切分开,并附上一个词类标记。

提供给参赛者的测试数据为仅包括中文字符和标点符号的原始格式,评测结果则会在评测结束后提供给参赛者。

组织方将会提供两个测试数据集。Test_A(Zuozhuan_Test) 旨在查看系统对同一本书中的数据执行情况。Zuozhuan_Test摘自《左传》,与Zuozhuan_Train不重叠。Zuozhuan语料库已由Linguistic Data Consortium (LDC)发布。但参赛团队不允许将Zuozhuan_Test用作训练数据。参赛团队可以在相关论文中查看这些数据和实验的具体情况。

Blind_Test旨在查看系统在类似数据(内容相似但来自不同书籍的文本)上的表现。Blind_Test尚未公开发布,它的文本大小类似于Zuozhuan_Test。

评测后,会把测试数据的详细信息提供给参赛者。

03

重要日程

2021 年 12 月 20 日:发布训练数据。

2022 年 3 月 10 日:发布测试数据。

2022 年 3 月 16 日:公布评测结果。

2022 年 3 月 30 日:参赛队提交评测论文。

2022 年 4 月  6 日:论文评审截止日期。

2022 年 4 月 20 日:参赛者提交论文最终修订版。

04

参赛方式

参赛者仅可提交经过如下两种方式的测试数据:

● 在封闭测试模式中,各团队只能使用测试数据 Zuozhuan_Train 和预训练模型 SIKU-Roberta(在《四库全书》上训练好的模型)。

● 在开放测试模式下,不限制资源、数据和模型。各团队可以使用其他外部数据,例如汉字的部首或拼音,并且可以采用字向量或词向量等。需要注意的是,各团队在最终报告中都必须注明他们在每个测试中所使用的全部资源、数据和模型。

●    比赛详情请关注 https://circse.github.io/LT4HALA/2022/EvaHan

主办团队

南京师范大学文学院计算语言学与数字人文(CLDH)研究组:

李斌、袁义国、冯敏萱、许超、曲维光

王东波(南京农业大学信息科学技术学院)

协办单位

(排名不分先后)

中国中文信息学会青年工作委员会

中国人工智能学会语言智能专委会

江苏省人工智能学会自然语言处理专委会 


投稿或交流学习,备注:昵称-学校(公司)-方向,进入DL&NLP交流群。

方向有很多:机器学习、深度学习,python,情感分析、意见挖掘、句法分析、机器翻译、人机对话、知识图谱、语音识别等。

0709724ae16972ea2295c12677e9d4f3.png

记得备注呦

整理不易,还望给个在看!
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值