[论文导读]Restoring and attributing ancient texts using deep neural networks深度学习复原古希腊铭文

摘要

铭文是研究古代文明思想、语言社会和历史的重要证据,但许多铭文被损坏到难以辨认的程度,被送到远离其原始位置的地方,书写日期也充满不确定性。

Ithaca——恢复受损铭文的缺失文本,识别铭文的初始位置(地理归属),确定其书写年限的深度神经网络

Ithaca的架构侧重于协作、决策支持和可解释性

 方法

Ithaca的主体结构是若干个堆叠的Transformer块用作信息解码,连接三个前馈小网络(任务头),分别用于预测缺失文本,预测地理归属,预测书写年限

模型输入

字符、单词和位置联合嵌入characters embeddingWords embeddingpositional embedding,有助于模型同时感知单词和字符( character-aware and context-aware

模型主体

8个堆叠的transformer解码器。使用全局、局部和随机注意力机制:将上下文依赖性从二次降低到线性。每层有4个稀疏注意力头:从输入中提取不同类型信息

每个transformer decoder都使用残差连接和层归一化(layer normalization

任务头

2层前馈小网络+softmax

时间和地点用第一个output embedding预测,缺失的单词用后续对应位置的output预测(只把缺失位置的output送去任务头预测)

 数据集

使用古希腊语训练,素材来源横跨古地中海,书写于公元前7世纪至公元前5世纪之间:

  • 古希腊语的内容和上下文有可变性,具有挑战
  •  可以获得古希腊语数字化语料库

该研究处理了原本未经处理的Packard Humanities InstitutePHI)数据集,包括178,551条铭文,有格式混乱、标注模糊等问题,该研究将每个PHI铭文分配了唯一ID,并生成了明确的日期间隔和地理位置。

实现效果

预测缺失文本

预测铭文的地理归属

 预测铭文所属年代

显著性图

可以输出对结果起关键作用的词

 在恢复缺失的词“联盟”(συμμαχία的每一步,伊萨卡显然都在关注上下文重要的词“雅典人”(ʻAθηναίων和“塞萨利人”(Θετταλων)。

模型评估

评估方式 

1.与仅专家恢复对比

2.给专家提供Ithaca得到的可能性前20的结果,得到人机协作下的准确度

3.与先前研究Pythia对比

4.使用希腊人名在时间和空间上的已知分布来推断地理和时间标记

评估指标

字符错误率(对文本恢复)

Top-k准确度(对地理位置恢复)

度量距离(对书写时间恢复)

评估数据

在恢复受损文本方面的准确率达到了 62%,在识别其原始位置方面的准确率达到 71%,并且可以将文本的日期确定在其真实日期范围的 30 年内。

与他们合作的历史专家在单独修复古代文本时准确率只有 25%,但当他们与 Ithaca 合作修复时时,准确率提高到了 72%,超过了模型的个人性能,体现出了人机协作在历史解释、建立历史事件的相对年代上的优势。

  • 2
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值