【论文+公式ocr+代码】2308.Nougat_Neural Optical Understanding for Academic Documents (Meta AI 学术pdf识别)

在这里插入图片描述

主要参考

论文原文学术文档的识别:2308. Nougat_Neural Optical Understanding for Academic Documents
机器之心报道:Meta推出OCR神器,PDF、数学公式都能转
演示地址:https://facebookresearch.github.io/nougat/
github 模型下载: https://github.com/facebookresearch/nougat/releases
pdf 输出格式mathpix makedown语法以及转换说明:https://github.com/Mathpix/mathpix-markdown-it

先导知识

  1. Transformer :李沐 Transformer论文逐段精读【论文精读】
  2. Swin Transforme: 2103.Hierarchical Vision Transformer using Shifted Windows | 中文解读

能用来做什么?

如何训练得到?

使用了800万页的pdf的数据,

从 arXiv 上开放获取的文章中创建了自己的数据集。为
PubMed Central (PMC) 开放访问非商业数据集的一个子集。
部分行业文档库 (IDL)。

数据集处理方法

在这里插入图片描述

模型

transformer 编解码结构
基于Donut : 2111. OCR-free Document Understanding Transformer模型改进的
在这里插入图片描述

运行代码测试 (1660ti)

https://github.com/facebookresearch/nougat

python predict.py   your_pdf.pdf  --batchsize=1  --out=./out

输出结果

没有图片,结果需要在vscode安装插件mathpix后展示
在这里插入图片描述

vscode插件展示

在这里插入图片描述

官方例子,融入到html上

在这里插入图片描述

附录: 什么是mathmarkdown ?

https://mathpix.com/docs/mathpix-markdown/overview

通过 LaTeX 语法(由 MathJax 提供支持)提供更好的方程支持,包括 LaTeX 的方程编号和引用约定
通过 LaTeX 表格语法更好地支持表格,允许使用科学出版物中常见的复杂嵌套表格
通过 LaTeX 语法进行高级图形引用
支持摘要、作者列表和可链接部分;这些是学术出版物的现实
支持以 SMILES 标记表示的化学图表,与 Chemdraw 等流行的化学工具兼容
支持图像:解析和渲染附加参数,例如宽度、高度、对齐方式
支持定理和证明

在这里插入图片描述

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

曾小蛙

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值