摘要
铭文是研究古代文明思想、语言社会和历史的重要证据,但许多铭文被损坏到难以辨认的程度,被送到远离其原始位置的地方,书写日期也充满不确定性。
Ithaca——恢复受损铭文的缺失文本,识别铭文的初始位置(地理归属),确定其书写年限的深度神经网络
Ithaca的架构侧重于协作、决策支持和可解释性。
方法
Ithaca的主体结构是若干个堆叠的Transformer块用作信息解码,连接三个前馈小网络(任务头),分别用于预测缺失文本,预测地理归属,预测书写年限
模型输入
字符、单词和位置联合嵌入characters embedding、Words embedding、positional embedding,有助于模型同时感知单词和字符( character-aware and context-aware)
模型主体
8个堆叠的transformer解码器。使用全局、局部和随机注意力机制:将上下文依赖性从二次降低到线性。每层有4个稀疏注意力头:从输入中提取不同类型信息
每个transformer decoder都使用残差连接和层归一化(layer normalization)
任务头
2层前馈小网络+softmax
时间和地点用第一个output embedding预测,缺失的单词用后续对应位置的output预测(只把缺失位置的output送去任务头预测)
数据集
使用古希腊语训练,素材来源横跨古地中海,书写于公元前7世纪至公元前5世纪之间:
- 古希腊语的内容和上下文有可变性,具有挑战
- 可以获得古希腊语数字化语料库
该研究处理了原本未经处理的Packard Humanities Institute(PHI)数据集,包括178,551条铭文,有格式混乱、标注模糊等问题,该研究将每个PHI铭文分配了唯一ID,并生成了明确的日期间隔和地理位置。
实现效果
预测缺失文本
预测铭文的地理归属
预测铭文所属年代
显著性图
可以输出对结果起关键作用的词
在恢复缺失的词“联盟”(συμμαχία)的每一步,伊萨卡显然都在关注上下文重要的词“雅典人”(ʻAθηναίων)和“塞萨利人”(Θετταλων)。
模型评估
评估方式
1.与仅专家恢复对比
2.给专家提供Ithaca得到的可能性前20的结果,得到人机协作下的准确度
3.与先前研究Pythia对比
4.使用希腊人名在时间和空间上的已知分布来推断地理和时间标记
评估指标
字符错误率(对文本恢复)
Top-k准确度(对地理位置恢复)
度量距离(对书写时间恢复)
评估数据
在恢复受损文本方面的准确率达到了 62%,在识别其原始位置方面的准确率达到 71%,并且可以将文本的日期确定在其真实日期范围的 30 年内。
与他们合作的历史专家在单独修复古代文本时准确率只有 25%,但当他们与 Ithaca 合作修复时时,准确率提高到了 72%,超过了模型的个人性能,体现出了人机协作在历史解释、建立历史事件的相对年代上的优势。