UniMERNet - 数学公式识别转LaTeX


一、关于 UniMERNet

UniMERNet 这是一个将数学表达式的图像转换为LaTeX的解决方案,适用于广泛的现实世界场景。


演示视频


二、快速入门


1、克隆repo并下载模型

git clone https://github.com/opendatalab/UniMERNet.git

cd UniMERNet/models
# Download the model and tokenizer individually or use git-lfs
git lfs install
git clone https://huggingface.co/wanderkid/unimernet

2、安装

conda create -n unimernet python=3.10

conda activate unimernet

pip install --upgrade unimernet

3、运行UniMERNet

  1. Streamlight应用程序:要获得交互式和用户友好的体验,请使用我们基于Streamlight的GUI。此应用程序允许实时公式识别和渲染。
unimernet_gui

确保为流线型GUI应用程序安装了最新版本的UniMERNet(pip install --upgrade unimernet)。


  1. 命令行演示:从图像中预测LaTeX代码。
python demo.py

  1. Jupyter笔记本演示:从图像中识别和渲染公式。
jupyter-lab ./demo.ipynb

四、评估


1、下载UniMER-Test数据集

下载UniMER-Test数据集并将其解压缩到以下目录:

./data/UniMER-Test

2、运行评估代码

python test.py --cfg configs/demo.yaml

3、与SOTA方法的性能比较(BLEU)

UniMERNet在识别真实世界的数学表达式方面明显优于主流模型,在简单打印表达式(SPE)、复杂打印表达式(CPE)、屏幕捕获表达式(SCE)和手写表达式(HWE)中展示了卓越的性能,BLEU分数比较评估证明了这一点。

在这里插入图片描述


4、不同方法的可视化结果

UniMERNet在具有挑战性的样本的视觉识别方面表现出色,优于其他方法。

在这里插入图片描述


五、UniMER数据集


1、导言

UniMER数据集是一个专门的集合,旨在推进数学表达式识别(MER)领域。它包含全面的UniMER1M训练集,其中包含100多万个代表各种复杂数学表达式的实例,以及UniMER测试集,该测试集精心设计,用于根据现实世界的场景对MER模型进行基准测试。数据集详情如下:

UniMER-1M训练集:

  • 总样品:1,061,791乳胶图像对
  • 组成:简洁和复杂的平衡组合,扩展公式表达式
  • 目的:训练鲁棒、高精度的MER模型,提高识别精度和泛化能力

UniMER测试集:

  • 样本总数:23757,分为四种类型的表达:
    • 简单打印表达式(SPE):6,762个样本
    • 复杂印刷表达(CPE):5,921个样本
    • 屏幕捕获表达式(SCE):4,742个样本
    • 手写表达式(HWE):6,332个样本
  • 目的:提供对现实世界条件范围内的MER模型的全面评估

2、数据集下载

您可以从OpenDataLab(推荐给中国用户)或HuggingFace下载数据集。


六、其它

1、待办事项

  • 发布UniMERNet的推理代码和检查点。
  • 发布UniMER-1M和UniMER-测试。
  • 开源Streamlight公式识别GUI应用程序。
  • 发布UniMERNet的训练代码。

2、引文

如果您发现我们的模型/代码/论文对您的研究有用,请考虑给我们一个⭐并引用我们的工作📝,谢谢:)

@misc{wang2024unimernet,
      title={UniMERNet: A Universal Network for Real-World Mathematical Expression Recognition}, 
      author={Bin Wang and Zhuangcheng Gu and Chao Xu and Bo Zhang and Botian Shi and Conghui He},
      year={2024},
      eprint={2404.15254},
      archivePrefix={arXiv},
      primaryClass={cs.CV}
}

3、致谢

  • VIGC。模型框架依赖于VIGC。
  • Texify。一种主流的MER算法,UniMERNet数据处理指的是Texify。
  • Latex-OCR。另一种主流MER算法。
  • Donut。UniMERNet的变压器编码器-解码器引用自甜甜圈。
  • Nougat。标记器使用牛轧糖。

2024-07-21(日)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

编程乐园

请我喝杯伯爵奶茶~!

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值