GOT-OCR2.0:本地部署基于QWen0.5B大模型的强大OCR服务

       这两天大佬团队开源了基于千问大模型OCR项目的视频多次被刷到,各博主对其识别能力也是给予充分的肯定, 作为CV工程师的小编平时工作中OCR的需求也是络绎不绝,如果真如各博主所说是跨时代的产品,那必须也要盘它一盘;

github:GitHub - Ucas-HaoranWei/GOT-OCR2.0: Official code implementation of General OCR Theory: Towards OCR-2.0 via a Unified End-to-end Model

下面咱们还是借助魔塔平台的算力来部署一下这个模型,话不多说,说干就干!

一、 模型介绍

       GOT是一个端到端的模型结构,模型由编码器和解码器组成,模型训练分成三个阶段进行;第一阶段,模型的Encoder 主体采用带 local attention的 VITDet 架构,使用小型 OPT-125M 作为 decoder对其喂入大量的数据进行一阶段训练;第二阶段将decoder部分替换为Qwen0.5B,增加多种类的数据进行进一步的训练;第三阶段锁住Encoder部分,对decoder部分进行进一步的训练,最后得到此模型;

  • 输入多样性:处理包括文本、公式、表格、图表、乐谱和几何形状在内的各种光学信号;

  • 输出灵活性:能够生成纯文本或格式化结果;支持 html 输出以及可读性强、可编辑的                                    formatted 文本输出,如 markdown 等;

更具体的模型架构思路推荐这篇博文

二、 模型本地部署

       部署流程还是相对比较简单的,官方也给出了详细的步骤,这里还是老样子,使用魔塔平台算力进行项目部署;可以直接在魔塔上的base环境进行搭建,也可以使用anaconda创建虚拟环境,我更偏向anaconda,所以需要在魔塔上安装一个miniconda,安装步骤可以到之前的这篇博文查看,这里就不再赘述了;

2.1 环境搭建

       安装好miniconda之后,按照官网步骤依次执行下面代码,需要注意的是在‘pip install -e .’的时候可能会报错,不要惊慌,能安装多少是多少,在下面运行代码的时候,报缺少哪个库再具体安装就好;

# 克隆项目源码并进入对应位置
git clone https://github.com/Ucas-HaoranWei/GOT-OCR2.0.git
cd GOT-OCR2.0/GOT-OCR-2.0-master

# 创建虚拟环境并激活
conda create -n got python=3.10 -y
conda activate got

# 安装项目所需依赖环境
pip install -e .

2.2 下载模型权重

       由于网络原因Huggingface无法获取, 我们可以到modelscope上获取相应的预训练模型,这里我直接贴出模型的地址;

# 创建存放权重的文件夹
mkdir weights
cd weights

# 克隆模型权重
git clone https://www.modelscope.cn/stepfun-ai/GOT-OCR2_0.git

2.3 运行模型,完善依赖环境

       如果之前的依赖环境安装报错了,那么接下来在这里就可以进行缺失包的安装了,需要注意的是如果提示缺失torch,那么需要到pytorch官网选择CUDA相对应的版本进行下载;

# 将测试代码复制到与GOT文件夹同一级目录下
cp GOT/demo/run_ocr_2.0.py ./

# 运行
python3 run_ocr_2.0.py  --model-name  weights/GOT-OCR2_0  --image-file  file.png  --type ocr

三、识别测试

3.1 手写字体识别

测试图片:

测试结果:

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值