【论文+公式ocr+代码】2308.Nougat_Neural Optical Understanding for Academic Documents （Meta AI 学术pdf识别）

曾小蛙

已于 2023-08-31 16:56:33 修改

阅读量1.1k

点赞数 1

CC 4.0 BY-SA版权

分类专栏：传统计算机视觉相关论文解读文章标签： mathpix transforner pdf识别公式识别 nougat ocr

于 2023-08-31 16:50:16 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/imwaters/article/details/132600466

传统计算机视觉相关同时被 2 个专栏收录

42 篇文章

订阅专栏

34 篇文章

订阅专栏

FacebookResearch的Nougat模型能识别PDF中的文字和复杂数学公式，无需图片。利用Transformer架构，配合MathpixMarkdown提供高质量的方程和表格支持。该技术使用大量开放数据集训练，可用于VSCode插件和Web应用中。

在这里插入图片描述

主要参考

论文原文学术文档的识别：2308. Nougat_Neural Optical Understanding for Academic Documents
机器之心报道：Meta推出OCR神器，PDF、数学公式都能转
演示地址：https://facebookresearch.github.io/nougat/
github 模型下载: https://github.com/facebookresearch/nougat/releases
pdf 输出格式mathpix makedown语法以及转换说明：https://github.com/Mathpix/mathpix-markdown-it

先导知识

Transformer :李沐 Transformer论文逐段精读【论文精读】
Swin Transforme: 2103.Hierarchical Vision Transformer using Shifted Windows | 中文解读

能用来做什么？

识别学术文档 PDF格式中文字、公式，
是被复杂的数学公式。
不包含图片
输入PDF ,
输出： .mmd 的轻量标记语言
- 用 vscode插件编辑打开)
- 使用 web框架-React 、NodeJS 进行渲染和后续显示：https://github.com/mathpix/mathpix-markdown-it
- 主要与 Mathpix Markdown 兼容（论文使用 LaTeX 表）
- 在Mathpix 官网进行使用，转换效果比本论文模型好：What is Mathpix Markdown?

如何训练得到？

使用了800万页的pdf的数据，

从 arXiv 上开放获取的文章中创建了自己的数据集。为
PubMed Central (PMC) 开放访问非商业数据集的一个子集。
部分行业文档库 (IDL)。

数据集处理方法

在这里插入图片描述

模型

transformer 编解码结构
基于Donut : 2111. OCR-free Document Understanding Transformer模型改进的
在这里插入图片描述

运行代码测试（1660ti）

https://github.com/facebookresearch/nougat

python predict.py   your_pdf.pdf  --batchsize=1  --out=./out

输出结果

没有图片，结果需要在vscode安装插件mathpix后展示
在这里插入图片描述

vscode插件展示

在这里插入图片描述

官方例子，融入到html上

在这里插入图片描述

附录: 什么是mathmarkdown ?

https://mathpix.com/docs/mathpix-markdown/overview

通过 LaTeX 语法（由 MathJax 提供支持）提供更好的方程支持，包括 LaTeX 的方程编号和引用约定
通过 LaTeX 表格语法更好地支持表格，允许使用科学出版物中常见的复杂嵌套表格
通过 LaTeX 语法进行高级图形引用
支持摘要、作者列表和可链接部分；这些是学术出版物的现实
支持以 SMILES 标记表示的化学图表，与 Chemdraw 等流行的化学工具兼容
支持图像：解析和渲染附加参数，例如宽度、高度、对齐方式
支持定理和证明

在这里插入图片描述

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

曾小蛙 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。