我们使用以下6个分类标准对本文的研究选题进行分析:
1. 预训练与微调:
- 预训练: 模型在未适应特定任务之前如何从大量的未标记数据中学习通用表示。GeoLayoutLM 侧重于“几何预训练”,其涉及设计明确教给模型词语和图像元素之间空间关系的任务。例如,预测相对位置、距离甚至几何变换。这些任务的有效性和它们捕获的几何信息类型是评估的关键方面。
- 微调: 这是调整预训练模型以适应特定的 VIE 任务,例如 SER 或 RE。在 GeoLayoutLM 中,“新颖的关系头”起着关键作用。这些头基本上是模型内部的专门层,使用几何任务进行预训练,并进一步进行微调以进行关系预测。分析这些头如何利用预训练的几何知识进行 RE 非常重要。
2. 几何表示:
- 显式性: 指空间关系被编码的详细程度。GeoLayoutLM 明确地模拟了各种几何特征,例如相对位置、距离和潜在的更复杂的特征。捕获的几何信息的粒度和具体类型对于理解模型的能力至关重要。
- 学习方法: 指几何表示的学习方式。模型是否需要带有明确几何注释的标记数据,或者它可以无监督或自监督地学习空间关系?理解学习过程对于评估方法的通用性和可扩展性很重要。
3. 任务重点:
- 语义实体识别 (SER): 此任务涉及识别和分类文档中的有意义实体(例如姓名、位置)。模型如何从文本和图像中提取特征,以及如何将这些特征分类为特定实体,是 SER 评估的关键方面。
- 关系抽取 (RE): 此任务涉及识别实体之间的关系&