新一代GOT-OCR端到端模型本地部署

最新推荐文章于 2025-03-22 18:58:11 发布

云博士的AI课堂

最新推荐文章于 2025-03-22 18:58:11 发布

阅读量1.6k

点赞数 5

分类专栏：大模型技术开发与实践文章标签： ocr GOT-OCR 大模型计算机视觉人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/l35633/article/details/142684774

版权

大模型技术开发与实践专栏收录该内容

248 篇文章

订阅专栏

GOT-OCR本地部署:

一：项目介绍：这是一款对纯文本，公式等进行识别的工具

项目地址：https://github.com/Ucas-HaoranWei/GOT-OCR2.0

二：准备环境与工具：python3.10、CUDA12.2

三：部署步骤：

将项目文件下载到本地

创建虚拟环境：conda create -n got python=3.10 -y

激活虚拟环境：conda activate got

进入项目所在文件夹，如：

D:

cd D:\liu\Project\GOT-OCR2.0-main\GOT-OCR-2.0-master

使用项目安装文件安装依赖：pip install -e .

重装与本机对应版本的pytorch（因为项目文件安装的pytorch文件可能与本机cuda版本不对应，此处也可修改其项目文件中下载pytorch字段）：pip install torch==2.2.0 torchvision==0.17.0 torchaudio==2.2.0 --index-url https://download.pytorch.org/whl/cu121
输入命令单独安装Flash-Attention：

pip install ninja

pip install flash-attn --no-build-isolation（此条命令耗时较久，本次安装大约耗时三小时）

下载模型（前两个需要科学上网）：

Huggingface：https://huggingface.co/ucaslcl/GOT-OCR2_0

Google Drive：drive.google.com

BaiduYun：百度网盘请输入提取码 (baidu.com) 提取码：OCR2

本地运行

纯文本识别：python GOT/demo/run_ocr_2.0.py --model-name GOT_weights/ --image-file file.png --type ocr

格式化文本识别： python GOT/demo/run_ocr_2.0.py --model-name GOT_weights/ --image-file file.png --type format

更多功能见官网：

可能出现的问题：本人在安装过程中出现报错RuntimeError: Numpy is not available，大概原因是版本不兼容，使用命令pip install numpy==1.24.4重新安装其他版本numpy

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。