保姆级教程安装Pix2text和Nougat,各种报错各种坑

保姆级教程安装Pix2text和Nougat,各种报错各种坑

话不多说,直接上步骤好了;原来配的环境没保存直接被删了,佛了

Pix2text

安装
  1. 使用Anaconda环境配置conda create -n pix python=3.9,pix是环境名称,随便自己取
  2. 激活环境conda activate pix
  3. 找到官网网址和教程:https://github.com/breezedeus/Pix2Text/blob/main/README_cn.md和官方使用说明:https://cnocr.readthedocs.io/zh/latest/usage/
  4. 直接pip install pix2text(默认cpu跑模型,所以没必要特意去选择torch版本)

这里强烈建议你选择使用命令pip install pix2text -i https://pypi.doubanio.com/simple
可以省不少事情

  1. 不出意外头铁不使用 -i 的话,报错出在这里:(没有报错就忽略以下步骤直接用吧)
    raise ReadTimeoutError(self._pool, None, "Read timed out.")
    pip._vendor.urllib3.exceptions.ReadTimeoutError: HTTPConnectionPool(host='10.11.186.2', port=8888): Read timed out.
    
  2. Cnstd的官网在这里:https://github.com/breezedeus/cnstd,直接使用pip install cnstd -i https://mirrors.aliyun.com/pypi/simple命令安装Cnstd,小CNN网络用来做检测的,检测LaTeX公式的位置以及文字的位置等等;(好消息他会重新安装torch,这会让安装过程显得很慢,总的来说还是比较蠢,但是很粗暴、直接)
  3. 使用pip install cnocr[ort-cpu]安装CnOCR(根据官网教程可以-i使用豆瓣源)
  4. 最后安装LaTeX-OCR,此步骤如遇到坑,请关注我的另一篇文章https://blog.csdn.net/qq_39743377/article/details/133643807(https://blog.csdn.net/qq_39743377/article/details/133643807)
  5. 如果你已经烦了,好消息,在6\7\8的任何一个步骤你都可以重新使用pip install pix2text -i https://pypi.doubanio.com/simple命令来挽救你的头铁
  6. 服务器端:请把opencv-python卸载,换成opencv-python-headless,不然会有很多奇怪报错;如果出现LibImport Error,请pip uninstall opencv-python opencv-python-headless,然后再安装pip install opencv-python-headless
使用

不出意外的话,肯定是要出意外的,因为你连不上hugging face,没有模型文件。
文件地址:Hugging Face,百度网盘(网盘密码nstd),感谢作者开源分享!
请对应下述地址,把运行需要的模型文件一个一个填进去:

  1. Cnstd:

首次使用 CnSTD 时,系统会自动下载zip格式的模型压缩文件,并存放于 ~/.cnstd目录(Windows下默认路径为 C:\Users<username>\AppData\Roaming\cnstd)。下载速度超快。下载后的zip文件代码会自动对其解压,然后把解压后的模型相关目录放于~/.cnstd/1.2目录中。

  1. CnOCR:

首次使用 CnOCR 时,系统会自动下载 zip 格式的识别模型压缩文件,并存于 ~/.cnocr目录(Windows下默认路径为 C:\Users<username>\AppData\Roaming\cnocr)。 下载后的zip文件代码会自动对其解压,然后把解压后的模型相关目录放于~/.cnocr/2.2目录中。

  1. pix2text:

对于分类模型,系统会自动下载模型mobilenet_v2.zip文件并对其解压,然后把解压后的模型相关目录放于~/.pix2text目录中。如果系统无法自动成功下载mobilenet_v2.zip文件,则需要手动下载此zip文件并把它放于 ~/.pix2text目录(Windows目录与上同理)。

  1. LaTeX-OCR

本质上,LaTeX-OCR才是内核,所以他的权重文件也是被需要的,一个weights.pth, 一个image_resizer.pth,下载模型文件并把它们存放于~/.pix2text/formula目录中(Windows目录与上同理)

Nougat

  1. pip install git+https://github.com/facebookresearch/nougat一个命令就够了,如果显示网络连接报错就把s去掉,使用pip install git+http://github.com/facebookresearch/nougat,如果两个都不行就多试几次,网络连接比较玄学
  2. 直接调用命令行命令就可以使用了,没有其他操作可言。
  3. 模型地址在这里https://github.com/facebookresearch/nougat/releases自己让他直接下载使用怕是不太可能
  4. 五个文件拷贝到/home/name/.cache/torch/hub/nougat-0.1.0-small[这里的name是你自己的用户名,自己改一下吧]
  5. 好了之后直接使用命令就行了:nougat path/to/file.pdf -o output_directory
至此,公式识别开源三巨头LaTeX-OCR、Pix2Text、Nougat教程结束。
  • 3
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 3
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值