L a T e X − O C R LaTeX-OCR LaTeX−OCR本地搭建记录
LaTeX-OCR
是一个开源的OCR项目,旨在将手写或打印的LaTeX
数学公式的图像转换为可编辑的LaTeX
代码
github链接
pix2tex LaTeX-OCR
运行要求:
python 3.7+
PyTorch
电脑信息
Windows 10专业版
版本 22H2(操作系统内部版本 19045.4412)
处理器(CPU) AMD Ryzen 7 4800H with Radeon Graphics 2.90 GHz
GPU 0 NVIDIA GeForce RTX 2060
GPU 1 AMD Radeon(TM) Graphics
在命令提示符(CMD)或文件资源管理器的地址栏中输入winver
并按下回车,可出现关于Windows
窗口
显示结果
命令行窗口输入nvidia-smi
,可显示NVIDIA GPU
的详细信息,
nvidia-smi
为NVIDIA System Management Interface
的缩写,是一个命令行工具,可查看驱动程序版本
与安装在系统上的CUDA
(Compute Unified Device Architecture)版本
python环境初始化
python版本 3.11.1
官网要求Python
版本3.7+
命令行输入python --version
或python -V
即可查看当前系统正在使用的Python
解释器版本号;使用python -VV
查看更详细的python
配置信息
venv虚拟环境(virtual environment)创建
创建虚拟环境
python -m venv LaTeX-OCR venv
运行上述程序,即在当前路径下创建LaTeX-OCR venv
目录,并在其中创建包含 Python 解释器副本和各种支持文件的目录
激活虚拟环境
进入LaTeX-OCR-env
文件夹,运行Scripts\activate
即可激活虚拟环境,虚拟环境激活成功后,可在左侧看到(LaTeX-OCR-env)的提示
PyTorch安装
在激活LaTeX-OCR-env
虚拟环境后,可在当前虚拟环境下安装pytorch
与LaTeX-OCR
在安装界面可以看到有不同的操作系统与包管理器选择,我使用的CUDA
版本为11.7
,需要安装之前的版本,可以根据以下链接选择自己对应的版本
先前版本
pip
安装命令为
pip install torch==2.0.1 torchvision==0.15.2 torchaudio==2.0.2 --index-url https://download.pytorch.org/whl/cu117
验证pytorch
GPU
是否安装成功(能用)
在虚拟环境下依次输入
python
import torch
torch.cuda.is_available()
结果返回true
表示可用,如图所示
安装LaTeX-OCR
虚拟环境下运行pip install "pix2tex[gui]"
即可安装,安装成功后,下载模型权重文件,虚拟环境下运行latexocr
即可弹出GUI
界面
模型权重文件下载地址
使用示例
待识别公式图片
在几秒内即可识别成功,识别结果如下
e x = ∑ n = 0 ∞ x n n ! = 1 + x + x 2 2 ! + ⋯ + x n n ! + ⋯ , x ∈ ( − ∞ , + ∞ ) \mathrm{e}^{x}=\sum_{n=0}^{\infty}{\frac{x^{n}}{n!}}=1+x+{\frac{x^{2}}{2!}}+\cdots+{\frac{x^{n}}{n!}}+\cdots,\quad x\in(-\infty,+\infty) ex=n=0∑∞n!xn=1+x+2!x2+⋯+n!xn+⋯,x∈(−∞,+∞)
参考链接
CUDA版本 更新
2023最新pytorch安装(超详细版)
Mathpix平替工具pix2tex/Latex-OCR完全使用教程
【LaTeX】数学公式/文档识别编辑软件/工具合集(含下载地址和使用指南
离线LaTex公式识别工具/模型调研
GitHub项目·LaTex OCR·一款免费的公式识别器
图像截屏公式识别——LaTeX-OCR安装与使用
数学公式KaTex识别神器,LaTex-OCR
在conda虚拟环境中配置cuda+cudnn+pytorch深度学习环境(新手必看!简单可行!)
其他开源项目