[论文导读]Restoring and attributing ancient texts using deep neural networks深度学习复原古希腊铭文

孟大师

已于 2022-04-05 11:10:21 修改

阅读量1.1k

点赞数 2

文章标签：深度学习

于 2022-04-05 11:09:48 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u013598963/article/details/123966046

版权

摘要

铭文是研究古代文明思想、语言社会和历史的重要证据，但许多铭文被损坏到难以辨认的程度，被送到远离其原始位置的地方，书写日期也充满不确定性。

Ithaca——恢复受损铭文的缺失文本，识别铭文的初始位置（地理归属），确定其书写年限的深度神经网络

Ithaca的架构侧重于协作、决策支持和可解释性。

方法

Ithaca的主体结构是若干个堆叠的Transformer块用作信息解码，连接三个前馈小网络（任务头），分别用于预测缺失文本，预测地理归属，预测书写年限

模型输入

字符、单词和位置联合嵌入characters embedding、Words embedding、positional embedding，有助于模型同时感知单词和字符（ character-aware and context-aware）

模型主体

8个堆叠的transformer解码器。使用全局、局部和随机注意力机制：将上下文依赖性从二次降低到线性。每层有4个稀疏注意力头：从输入中提取不同类型信息

每个transformer decoder都使用残差连接和层归一化（layer normalization）

任务头

2层前馈小网络+softmax

时间和地点用第一个output embedding预测，缺失的单词用后续对应位置的output预测（只把缺失位置的output送去任务头预测）

数据集

使用古希腊语训练，素材来源横跨古地中海，书写于公元前7世纪至公元前5世纪之间：

古希腊语的内容和上下文有可变性，具有挑战
可以获得古希腊语数字化语料库

该研究处理了原本未经处理的Packard Humanities Institute（PHI）数据集，包括178,551条铭文，有格式混乱、标注模糊等问题，该研究将每个PHI铭文分配了唯一ID，并生成了明确的日期间隔和地理位置。

实现效果

预测缺失文本

预测铭文的地理归属

预测铭文所属年代

显著性图

可以输出对结果起关键作用的词

在恢复缺失的词“联盟”（συμμαχία）的每一步，伊萨卡显然都在关注上下文重要的词“雅典人”（ʻAθηναίων）和“塞萨利人”（Θετταλων）。

模型评估

评估方式

1.与仅专家恢复对比

2.给专家提供Ithaca得到的可能性前20的结果，得到人机协作下的准确度

3.与先前研究Pythia对比

4.使用希腊人名在时间和空间上的已知分布来推断地理和时间标记

评估指标

字符错误率（对文本恢复）

Top-k准确度（对地理位置恢复）

度量距离（对书写时间恢复）

评估数据

在恢复受损文本方面的准确率达到了 62%，在识别其原始位置方面的准确率达到 71%，并且可以将文本的日期确定在其真实日期范围的 30 年内。

与他们合作的历史专家在单独修复古代文本时准确率只有 25%，但当他们与 Ithaca 合作修复时时，准确率提高到了 72%，超过了模型的个人性能，体现出了人机协作在历史解释、建立历史事件的相对年代上的优势。

关注

2
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
[论文导读]Restoring and attributing ancient texts using deep neural networks深度学习复原古希腊铭文

摘要铭文是研究古代文明思想、语言社会和历史的重要证据，但许多铭文被损坏到难以辨认的程度，被送到远离其原始位置的地方，书写日期也充满不确定性。Ithaca——恢复受损铭文的缺失文本，识别铭文的初始位置（地理归属），确定其书写年限的深度神经网络Ithaca的架构侧重于协作、决策支持和可解释性。方法Ithaca的主体结构是若干个堆叠的Transformer块用作信息解码，连接三个前馈小网络（任务头），分别用于预测缺失文本，预测地理归属，预测书写年限模型输入字符、单词和位..
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。