本文是LLM系列文章,针对《Nougat: Neural Optical Understanding for Academic Documents》的翻译。
摘要
科学知识主要以PDF的形式存储在书籍和科学期刊中。然而,PDF格式会导致语义信息的丢失,尤其是数学表达式。我们提出了Nougat(学术文献的神经光学理解),这是一个视觉转换器模型,它执行光学字符识别(OCR)任务,将科学文献处理成标记语言,并在新的科学文献数据集上证明了我们的模型的有效性。所提出的方法通过弥合人类可读文件和机器可读文本之间的差距,为在数字时代提高科学知识的可及性提供了一个有希望的解决方案。我们发布了模型和代码,以加速未来科学文本识别的工作。
1 引言
2 相关工作
3 模型
4 数据集
5 结果与验证
5.5 局限性与未来工作
实用
新型的实用性受到许多因素的限制。首先,第5.4节中概述的重复问题。该模型是在研究论文上训练的,这意味着它在具有类似结构的文档上尤其有效。但是,它仍然可以准