国外科学家使用深度学习还原古代文字代码开源_国外研究员 ocr 复原图书-CSDN博客

本文链接：https://blog.csdn.net/hahabeibei123456789/article/details/102700315

下面这张图是考古中发现的一块损坏的铭文：关于一项关于雅典卫城的法令（公元前485/4）。

概述

深度学习可以帮助学者恢复古希腊文字。

牛津大学的研究人员（Thea Sommerschield和乔纳森·普拉格教授）和DeepMind的研究人员（Yannis Assael）建立了Pythia，训练了神经网络来猜测希腊铭文中缺少的单词或字符。

它们在包括石材，陶瓷和金属的表面上。他们年龄在1500至2600年之间。最新报告可以看到人工智能在破译受损药片方面也击败了人类。

“在面对面的测试中，人工智能试图填补2949个受损铭文中的空白，人类专家所犯的错误比人工智能多30％。而专家们花了2个小时才获得了50个铭文，Pythia给出了猜测整个队列只需几秒钟。”

从一开始，作者就知道恢复文本是一项耗时的任务，甚至对于专家级的词学家来说也是如此。他们着手在两名具有表象专业知识的博士生的帮助下，评估手头修复任务的难度，从而判断我们工作的影响。允许学者使用训练集搜索“相似”。

在填充遗漏的单词方面，人工智能似乎比人类更好，但这不是A队与B队的竞争。相反，人工智能技术“可能是最有用的协作工具，研究人员可以使用它来缩小选择范围。”

几个世纪以来，许多古老的禁忌已经被侵蚀或破坏。作者说：“只有一小部分尚存的铭文是完全清晰和完整的。”

在文本片段丢失的情况下，如何尝试填补遗漏单词的空白？正如作者所说，这意味着要看其余的铭文并看其他类似的文字。

生成PHI-ML

由于数字化人口统计语料的可用性，PYTHIA已接受过古希腊文字（以下简称“ AG”）铭文的训练。作者选择AG题词作为案例研究有两个原因：

a）内容的可变性AG历史记录的背景使之成为现实NLP面临的巨大挑战；b）数位AG文本语料库最近已创建，最大的是PHI（The Packard Humanities研究所

恢复损坏的AG铭文时，碑文学家对总数的猜想缺少的字符由语法和语法上的考虑，以及碑文的重构图形布局。猜想的丢失字符通常是标有连字符，一连字符等于一个缺少字符。

此外，碑文学家传统上会将经编辑的文本转换为小写字母，加上标点符号和变音符号，这通常是原始铭文所没有的。这些PHI中也使用了约定。

因为PHI中的人类注释很杂并且在语法上常常不一致，作者编写了一个管道将其转换为机器可操作文本。

我们首先计算字符频率并标准化AG字母以包括所有核心字符，包括所有重音符号（147个字符），数字，空格和标点符号。引入了两个附加字符：“-”代表丢失字符，“？”表示要预测的字符。然后，我们编写了正则表达式来替换出现在带0的文本以避免数值相关，带状其余的标点符号，删除某些字符周围的常规字母符号（“ Leiden约定”），并丢弃内容不是希腊文的注释。然后着手清除人的意见，修复标点符号的间隔和大小写，并过滤了结果文本，以便仅保留受限制的字母字符。课文少于100个字符的字符也将被丢弃。最后，我们匹配了失踪人数文字学家所猜想的人物，从而将长度值转换为相等“-”符号的数量。所得数据集名为PHI-ML，并且由超过320万个单词组成（表1）。PHI ID以{3，4}结尾的题词（PHI中的每个题词都分配有唯一创建原始语料库时的标识符）保留并分别用作测试和验证集。

背景的重要性

上下文信息的存在是影响人口统计学还原的准确性的决定性因素。因此，我们评估了不同文本长度作为增强上下文对文本的影响

PYTHIA的前20位准确性度量。可以

从下图可以看出，“上下文长度”和预测性能我们的模型是积极的。

具体来说，性能在上下文的500个字符左右达到峰值长度。此外，图中举例说明了当仅提供了较短的上下文长度（例如20个字符）。

后一种情况回想起了字符串匹配和“并行”搜索方法所遇到的类似困难，其中搜索查询通常会很短。

有关于AI称为Pythia的功能的报告：（1）Pythia学会了识别35,000个文物中的模式，超过300万个单词。（2）它选择的模式包括出现不同单词的上下文，语法以及铭文的形状和布局。

为了帮助碑文学家，毕生不仅仅给学者一个预言。而是返回多个预测以及每个结果的置信度。

方法评估

因为文字还原即使对于专家级的地名学家，我们着手评估手头修复任务的难度-因此在以下人员的帮助下判断我们工作的影响两名具有统计学专业的博士生。允许学者们使用训练集搜索“相似”，并取平均值2小时内完成50次修复，特征为57.3％错误率（CER）。LM生理学。评估性能使用“平行”模型，我们训练了LM。由于文本的大部分出现乱码，因此完全无法识别的单词，并且因为BERT不是一个选项，所以LM在字符级别工作并且基于Zaremba等人的设置。

LM接受了两次训练较大的文学AG文本（“语言学”），First1KGreek和Perseus的数字语料库，并进行了评估在PHI-ML上。LM心理学与史诗。LM联合受过First1KGreek，Perseus和PHI-ML的培训。LM史诗。LM对PHI-ML进行了培训，PYTHIA-UNI。消融架构，使用仅字符作为输入和单向LSTM，PYTHIA-BI。与PYTHIA-UNI消融相似，但具有双向LSTM。PYTHIA-BI-WORD。这是我们建议的模型选择，它使用双向LSTM和字符和单词作为输入。