介绍
两河流域的阿卡德语、苏美尔语写下的楔形文字,是人类最早的成熟文字之一,具有很高的文史价值。目前,楔形文字大部分已经破解,亟待计算机进行大规模地处理和应用。
EvaCun2025作为NAACL2025的ALP2025评测任务,聚焦于利用大语言模型(LLMs)进行分析楔形文字语言(包括但不限于苏美尔语、阿卡德语、埃兰语、赫梯语、胡里语及其他语言),尤其是对古阿卡德语和苏美尔语进行词法分析和文本修复。
阿卡德语被认为是已知最早的闪米特语,大约从公元前2700年开始使用,直到楔形文字的使用结束。在整个公元前,它成为古代近东地区的主要语言,并在从伊朗到安纳托利亚,叙利亚到埃及的广阔地理区域内作为通用语发挥作用。楔形文字(Cuneiform)是一种音节文字,它在泥板上刻出楔形形状,是用来记录阿卡德语和苏美尔语的书写系统。
恢复和分析古代文本有助于我们更深入地了解那些早期文明的历史、法律、宗教、商业和生活。我们的目标是使用大语言模型(LLMs)来分析和恢复受损或遗失的文本,从而为考古学和历史学提供研究资源。我们也希望促进专门研究这些语言的学者之间的合作,并吸引来自不同学术背景的学者。
重要日程
●注册与训练数据发布:2024年12月1日—2025年1月15日
●测试数据发布:2025年2月15日
●结果提交截止:2025年2月21日
●技术报告提交截止:2025年2月28日
●论文评审截止:2025年3月5日
任务
楔形文字是什么?
楔形文字系统是一种标音文字系统,主要通过在泥板上压印楔形符号来书写。楔形文字也被书写在其他可保存的媒介上,如石碑和金属物品。
苏美尔语是最早有记录的书面语言,使用时间从公元前第四个千年(可能更早)到公元前第二个千年早期。然而,它一直作为一种学术语言被研究、抄写和传授,是楔形文字传统的一部分,直到公元前两个世纪才逐渐消亡。苏美尔语是一种孤立语言,无法归属于任何已知的语系。
阿卡德语是最早有记载的闪米特语言,具体属于东闪米特语支。从公元前2700年左右到楔形文字使用终止期间都有文字记载。在这段时期的大部分时间里它都是一种口语,直到公元前第一个千年逐渐被亚拉姆语取代。在公元前第二个千年期间,阿卡德语是古代近东地区的通用语,使用范围从伊朗到安纳托利亚,从叙利亚到埃及。因此,在这一时期,在美索不达米亚之外发现了大量用阿卡德语和苏美尔语书写的楔形文字泥板,这些泥板存在于其他语言的楔形文字传统背景之中。
楔形文字词形还原和词元预测任务
使用大型语言模型(LLMs)对阿卡德语和苏美尔语文献进行词形还原和词元预测任务对于推进计算文本分析和创建语言树库、词嵌入等语言资源至关重要。然而,由于楔形文字语言属于低资源语言,现有的文本语料库对于每个楔形文字历史时期的数据量相对有限,而且这些数据还分布在不同的地理区域和文本类型中。现有的词形还原器主要依赖于公元前一千年的亚述和巴比伦档案及王室文献,而且许多楔形文字泥板的残缺性以及阿卡德语和苏美尔语中的词形同音现象,使得创建新的计算语言学资源变得具有挑战性。
EvaCun 2025数据集包含公元前一千年的文学、科学和档案文献,主要来自大英博物馆的楔形文字泥板,以及公元前二千年早期的美索不达米亚书信。这些文本在数据集和训练-测试集之间没有分割。在阿卡德语中没有现代标点符号,因此上下文的基本单位是楔形文字泥板上的物理行。所有文本最初都是用楔形文字书写的,但为了简单起见,我们在此以其音译形式呈现(即用拉丁字母书写的音节文字)。
词形还原数据集:包含xyz个单词及其对应的词元。这些单词按照在特定文本中的相对顺序排列。
词元预测数据集:包含xyz行文本和xyz个单词。在测试集中,15%的单词被遮蔽并需要预测。在后续阶段,最成功的模型可用于恢复楔形文字泥板中实际缺失的词元(因侵蚀或物理损坏)。
两个数据集在可能的情况下都包含额外信息,如文本类型、泥板发现地点、词语语言(阿卡德语、苏美尔语等,许多文本包含多种语言的词语)。请随意使用您认为有帮助的额外信息,并确保在技术报告中包含所有使用的信息。组织者依赖所有参与者的诚信,这些参与者可能对部分将用于评估的数据有先验知识。在共享任务中不允许不当使用此类知识。
研究议程
我们鼓励参与者利用大语言模型为这些传统上通过人工或经典计算方法完成的任务开发前沿解决方案。我们希望回答关于使用大语言模型和楔形文字的三个主要问题(广义的大语言模型,包括像BERT这样的transformer模型):
大语言模型能否在阿卡德语和苏美尔语的词形还原和词元预测任务中展现最佳性能?
我们如何利用大语言模型促进楔形文字语言的资源和语言技术发展?
我们如何利用大语言模型促进楔形文字学者与不同学科研究人员之间的合作?
需要说明的是,虽然我们鼓励参与者在解决方案中使用大语言模型,但我们并不期望为此任务从头训练一个大语言模型,而且在这种数据量下也不可行。理想情况下,我们希望使用现有的基于指令的大语言模型,使其能够理解关于楔形文字的英语查询(这是具有挑战性的)。
常见问题
我们能否使用/添加自己的数据进行训练?
不行,为了避免数据污染,我们要求您只能使用我们提供的数据。这些数据由几个语料库组成,我们已经对其进行了预处理以适应任务需求,所以对于训练和评估来说都不能对其进行修改。
我们能否使用指令型大语言模型(如ChatGPT)?
可以,虽然这些模型也存在数据污染问题,但有些事情不在我们的控制范围内。然而,如果您选择使用指令型模型,请确保在技术报告的附录中完整添加对话内容(包括初始提示、优化后的提示、聊天回复等)。
我们能否使用在线找到的阿卡德语模型(例如在HuggingFace上的)?
这要视情况而定。显然,您不能使用他人的词形还原模型并将其作为自己的工作提交。您可以使用为不同任务训练的阿卡德语模型,但必须在技术报告中准确说明这些模型的训练目的、使用的数据、效果如何,并恰当引用。如果HF上的模型卡片没有说明这些信息,您就不能使用该模型。
关于组织者
EvaCun 2025将与ALP 2025共同在美国新墨西哥州阿尔伯克基举办,时间为2025年4月29日至5月4日。作为NAACL 2025的联合活动,本次研讨会将提供一个了解古代语言处理领域挑战和最新发展的机会。EvaCun 2025由以色列阿里埃勒大学数字过去实验室和特拉维夫大学TAD人工智能与数据科学中心联合组织,并得到慕尼黑大学电子巴比伦图书馆和法兰西学院ARCHIBAB项目的赞助。
EvaCUN评估任务的说明
1. 词形还原任务 (Lemmatization Task)
主要评估指标:
- 准确率(精确匹配):
- 定义:预测的词形(lemma)与标准答案完全匹配的百分比
- 计算公式:准确率=正确词形预测数/总词数
错误分析类别:
-
同形异义词(Homographs)
- 定义:形式相同但含义或词形不同的词
- 例如:英语中的"bank"可以是"银行"或"河岸"
-
罕见词形(Rare Lemmas)
- 定义:在数据集中出现频率较低的词形
-
形态复杂性(Morphological Complexity)
- 定义:具有复杂变化形式的词形变化情况
2. 词元预测任务 (Token Prediction Task)
主要评估指标:
-
Top-1准确率
- 定义:系统预测的最优选择与正确答案完全匹配的百分比
- 计算公式:
Top−1准确率=正确预测数/总掩码词数
-
Top-3准确率
- 定义:正确答案出现在系统前3个预测结果中的比例
- 计算公式:Top−3准确率=正确词在前3预测中出现的数量/总掩码词数
次要评估指标:
困惑度(Perplexity)
- 定义:评估概率模型预测掩码词元的不确定性
- 特点:
- 数值越低表示性能越好
- 反映模型对正确完成的预测概率
- 计算公式:困惑度=
技术术语解释:
-
词形还原(Lemmatization)
- 将词的变化形式还原为其基本形式的过程
- 例如:"running" → "run","better" → "good"
-
词元(Token)
- 文本中的最小处理单位
- 可以是单词、标点符号或其他语言单位
-
掩码词(Masked Words)
- 在文本中被特意遮盖或替换,需要模型预测的词
-
上下文(Context)
- 围绕目标词的相关文本内容
- 用于帮助模型理解和预测目标词
这个评估框架综合使用了多个指标,既考虑了精确匹配的准确性,也考虑了模型的预测能力和泛化性能。通过多维度的评估指标,可以全面地评估参与系统的性能表现。
EvaCUN任务的数据格式和数据分割情况
数据格式
1. 词形还原任务(Lemmatization)
- 文件格式:CSV(逗号分隔值文件)
- 数据结构:
- 每行代表一个单词
- 主要列:
- 'value'(词形值)
- 'uniqueLemma'(唯一词形)
- 可以使用其他可用列来辅助预测
2. 文本恢复任务(Text Restoration Task)
- 文件格式:CSV
- 特点:
- 包含文本行
- 重要说明:由于阿卡德语(Akkadian)不像现代语言那样有句子的概念,文本恢复的上下文是基于原始文本按顺序排列的实际行
数据分割(Data Splits)
1. 词形还原任务
- 数据合并:将所有语料库集合在一起
- 分割比例:
- 训练集:80%
- 测试集:20%
2. 文本恢复任务
- 特点:在训练集和测试集中,约15%的词被标记为[MASK]需要恢复
技术术语解释:
-
CSV(Comma-Separated Values)
- 一种用逗号分隔数据的文本文件格式
- 常用于存储表格数据
-
阿卡德语(Akkadian)
- 古代美索不达米亚使用的闪米特语言
- 与现代语言的句子结构不同
- 以行为基本单位组织文本
-
[MASK]标记
- 表示在文本中被遮盖或需要预测的词
- 在文本恢复任务中占总词数的约15%
-
语料库(Corpora)
- 文本数据的集合
- 用于训练和测试语言模型
-
训练集/测试集(Train/Test Data)
- 训练集:用于模型学习的数据
- 测试集:用于评估模型性能的数据
- 按8:2的比例分割,确保模型的泛化能力
这个数据集的设计考虑了阿卡德语的特殊性,采用了标准的机器学习数据处理方法(训练集/测试集分割),并为不同任务(词形还原和文本恢复)提供了相应格式的数据。
参与流程
1. 注册
- 需要填写注册表格
- 注册后将通过邮件接收训练数据
- 注意事项:
- 如果两天内没有收到回复,请重新提交表格
- 同一个团队可以同时参加两个任务,无需分别注册
- 不同团队需要单独注册
2. 提交结果
- 提交截止日期到期后会公布提交链接
- 文件格式要求:
- 词形还原任务:文件名需以 "_lemmatization.csv" 结尾
- 词元预测任务:文件名需以 "_tokenprediction.csv" 结尾
- 提交文件需要:
- CSV格式
- 结构需与训练和测试文件相同
- 需包含 'prediction' 列,用于填写词形或预测的词元
3. 技术报告要求
- 篇幅限制:不超过4页(不包括参考文献)
- 每个任务需要单独的技术报告
- 报告要求:
- 需要匿名(不包含作者姓名和机构)
- 避免明显的自我引用
- 包含具体的任务示例和模型预测
- 需要包含错误分析部分
奖励机制
获奖条件
要赢得任务奖励,团队需要提供:
- 结果文件
- 评估分数
- 技术报告
评分方式
- 官方将重新运行结果文件进行验证
- 最终分数 = 技术报告得分 + 测试得分
奖金设置
- 每个任务的获胜团队:500欧元
- 每个任务的亚军:250欧元
领奖要求
- 需在Github上公开代码
- 提供单一银行账户信息
- 获胜的模型将被eBL和ARCHIBAB项目使用
技术术语解释
-
共享任务(Shared Task)
- 一种学术竞赛形式
- 参与者使用相同的数据集解决特定问题
-
CSV(Comma-Separated Values)
- 用于提交结果的标准文件格式
- 需要包含预测结果列
-
eBL和ARCHIBAB项目
- 使用获胜模型的古代文本研究项目
- 可能是与楔形文字或美索不达米亚研究相关的项目
-
匿名审查(Blind Reviewing)
- 技术报告评审过程中隐藏作者信息
- 确保评审的公平性
这个竞赛的组织结构完善,包含了明确的参与流程、提交要求和奖励机制,同时通过技术报告的要求确保了参与者对其方法进行充分的分析和文档记录。