Nougat: Neural Optical Understanding for Academic Documents

516 篇文章 3 订阅

已下架不支持订阅

Nougat是一种视觉转换器模型,专注于学术文献的光学字符识别,将PDF转换为标记语言。它在科学文献数据集上表现出色,尽管存在局限性,如非拉丁文字处理和重复问题。未来工作将解决这些问题,提高模型的一致性和效率。
摘要由CSDN通过智能技术生成

本文是LLM系列文章,针对《Nougat: Neural Optical Understanding for Academic Documents》的翻译。

摘要

科学知识主要以PDF的形式存储在书籍和科学期刊中。然而,PDF格式会导致语义信息的丢失,尤其是数学表达式。我们提出了Nougat(学术文献的神经光学理解),这是一个视觉转换器模型,它执行光学字符识别(OCR)任务,将科学文献处理成标记语言,并在新的科学文献数据集上证明了我们的模型的有效性。所提出的方法通过弥合人类可读文件和机器可读文本之间的差距,为在数字时代提高科学知识的可及性提供了一个有希望的解决方案。我们发布了模型和代码,以加速未来科学文本识别的工作。

1 引言

2 相关工作

3 模型

4 数据集

5 结果与验证

5.5 局限性与未来工作

实用
新型的实用性受到许多因素的限制。首先,第5.4节中概述的重复问题。该模型是在研究论文上训练的,这意味着它在具有类似结构的文档上尤其有效。但是,它仍然可以准

已下架不支持订阅

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值