保姆级教程安装Pix2text和Nougat，各种报错各种坑

最新推荐文章于 2025-06-06 19:09:24 发布

Donal_Q

最新推荐文章于 2025-06-06 19:09:24 发布

阅读量2.7k

点赞数 6

文章标签：深度学习人工智能算法 python

本文链接：https://blog.csdn.net/qq_39743377/article/details/133877476

版权

保姆级教程安装Pix2text和Nougat，各种报错各种坑

话不多说，直接上步骤好了；原来配的环境没保存直接被删了，佛了

Pix2text

安装

使用Anaconda环境配置conda create -n pix python=3.9，pix是环境名称，随便自己取
激活环境conda activate pix
找到官网网址和教程：https://github.com/breezedeus/Pix2Text/blob/main/README_cn.md和官方使用说明：https://cnocr.readthedocs.io/zh/latest/usage/
直接pip install pix2text（默认cpu跑模型，所以没必要特意去选择torch版本）

这里强烈建议你选择使用命令pip install pix2text -i https://pypi.doubanio.com/simple
可以省不少事情

不出意外头铁不使用 -i 的话，报错出在这里：(没有报错就忽略以下步骤直接用吧）

raise ReadTimeoutError(self._pool, None, "Read timed out.")
pip._vendor.urllib3.exceptions.ReadTimeoutError: HTTPConnectionPool(host='10.11.186.2', port=8888): Read timed out.

Cnstd的官网在这里：https://github.com/breezedeus/cnstd，直接使用pip install cnstd -i https://mirrors.aliyun.com/pypi/simple命令安装Cnstd，小CNN网络用来做检测的，检测LaTeX公式的位置以及文字的位置等等；（好消息他会重新安装torch，这会让安装过程显得很慢，总的来说还是比较蠢，但是很粗暴、直接）
使用pip install cnocr[ort-cpu]安装CnOCR（根据官网教程可以-i使用豆瓣源）
最后安装LaTeX-OCR，此步骤如遇到坑，请关注我的另一篇文章https://blog.csdn.net/qq_39743377/article/details/133643807(https://blog.csdn.net/qq_39743377/article/details/133643807)
如果你已经烦了，好消息，在6\7\8的任何一个步骤你都可以重新使用pip install pix2text -i https://pypi.doubanio.com/simple命令来挽救你的头铁
服务器端：请把opencv-python卸载，换成opencv-python-headless，不然会有很多奇怪报错；如果出现LibImport Error，请pip uninstall opencv-python opencv-python-headless,然后再安装pip install opencv-python-headless

使用

不出意外的话，肯定是要出意外的，因为你连不上hugging face，没有模型文件。
文件地址：Hugging Face,百度网盘（网盘密码nstd），感谢作者开源分享！
请对应下述地址，把运行需要的模型文件一个一个填进去：

Cnstd：

首次使用 CnSTD 时，系统会自动下载zip格式的模型压缩文件，并存放于 ~/.cnstd目录（Windows下默认路径为 C:\Users<username>\AppData\Roaming\cnstd）。下载速度超快。下载后的zip文件代码会自动对其解压，然后把解压后的模型相关目录放于~/.cnstd/1.2目录中。

CnOCR:

首次使用 CnOCR 时，系统会自动下载 zip 格式的识别模型压缩文件，并存于 ~/.cnocr目录（Windows下默认路径为 C:\Users<username>\AppData\Roaming\cnocr）。下载后的zip文件代码会自动对其解压，然后把解压后的模型相关目录放于~/.cnocr/2.2目录中。

pix2text:

对于分类模型，系统会自动下载模型mobilenet_v2.zip文件并对其解压，然后把解压后的模型相关目录放于~/.pix2text目录中。如果系统无法自动成功下载mobilenet_v2.zip文件，则需要手动下载此zip文件并把它放于 ~/.pix2text目录（Windows目录与上同理）。

LaTeX-OCR

本质上，LaTeX-OCR才是内核，所以他的权重文件也是被需要的，一个weights.pth，一个image_resizer.pth，下载模型文件并把它们存放于~/.pix2text/formula目录中（Windows目录与上同理）

Nougat

pip install git+https://github.com/facebookresearch/nougat一个命令就够了，如果显示网络连接报错就把s去掉，使用pip install git+http://github.com/facebookresearch/nougat，如果两个都不行就多试几次，网络连接比较玄学。
直接调用命令行命令就可以使用了，没有其他操作可言。
模型地址在这里https://github.com/facebookresearch/nougat/releases自己让他直接下载使用怕是不太可能
五个文件拷贝到/home/name/.cache/torch/hub/nougat-0.1.0-small[这里的name是你自己的用户名，自己改一下吧]
好了之后直接使用命令就行了：nougat path/to/file.pdf -o output_directory