GOT-OCR2.0:本地部署基于QWen0.5B大模型的强大OCR服务

CITY_OF_MO_GY

已于 2025-03-05 10:38:08 修改

阅读量2.2k

点赞数 13

文章标签： ocr

于 2024-10-16 21:59:50 首次发布

本文链接：https://blog.csdn.net/CITY_OF_MO_GY/article/details/142989860

版权

这两天大佬团队开源了基于千问大模型OCR项目的视频多次被刷到，各博主对其识别能力也是给予充分的肯定，作为CV工程师的小编平时工作中OCR的需求也是络绎不绝，如果真如各博主所说是跨时代的产品，那必须也要盘它一盘；

github:GitHub - Ucas-HaoranWei/GOT-OCR2.0: Official code implementation of General OCR Theory: Towards OCR-2.0 via a Unified End-to-end Model

下面咱们还是借助魔塔平台的算力来部署一下这个模型，话不多说，说干就干！

一、模型介绍

GOT是一个端到端的模型结构，模型由编码器和解码器组成，模型训练分成三个阶段进行；第一阶段，模型的Encoder 主体采用带 local attention的 VITDet 架构，使用小型 OPT-125M 作为 decoder对其喂入大量的数据进行一阶段训练；第二阶段将decoder部分替换为Qwen0.5B，增加多种类的数据进行进一步的训练；第三阶段锁住Encoder部分，对decoder部分进行进一步的训练，最后得到此模型；

输入多样性：处理包括文本、公式、表格、图表、乐谱和几何形状在内的各种光学信号；
输出灵活性：能够生成纯文本或格式化结果；支持 html 输出以及可读性强、可编辑的 formatted 文本输出，如 markdown 等；

更具体的模型架构思路推荐这篇博文；

二、模型本地部署

部署流程还是相对比较简单的，官方也给出了详细的步骤，这里还是老样子，使用魔塔平台算力进行项目部署；可以直接在魔塔上的base环境进行搭建，也可以使用anaconda创建虚拟环境，我更偏向anaconda，所以需要在魔塔上安装一个miniconda，安装步骤可以到之前的这篇博文查看，这里就不再赘述了；

2.1 环境搭建

安装好miniconda之后，按照官网步骤依次执行下面代码，需要注意的是在‘pip install -e .’的时候可能会报错，不要惊慌，能安装多少是多少，在下面运行代码的时候，报缺少哪个库再具体安装就好；

# 克隆项目源码并进入对应位置
git clone https://github.com/Ucas-HaoranWei/GOT-OCR2.0.git
cd GOT-OCR2.0/GOT-OCR-2.0-master

# 创建虚拟环境并激活
conda create -n got python=3.10 -y
conda activate got

# 安装项目所需依赖环境
pip install -e .

2.2 下载模型权重

由于网络原因Huggingface无法获取，我们可以到modelscope上获取相应的预训练模型，这里我直接贴出模型的地址；

# 创建存放权重的文件夹
mkdir weights
cd weights

# 克隆模型权重
git clone https://www.modelscope.cn/stepfun-ai/GOT-OCR2_0.git

2.3 运行模型，完善依赖环境

如果之前的依赖环境安装报错了，那么接下来在这里就可以进行缺失包的安装了，需要注意的是如果提示缺失torch，那么需要到pytorch官网选择CUDA相对应的版本进行下载；

# 将测试代码复制到与GOT文件夹同一级目录下
cp GOT/demo/run_ocr_2.0.py ./

# 运行
python3 run_ocr_2.0.py  --model-name  weights/GOT-OCR2_0  --image-file  file.png  --type ocr