PP-OCR技术原理与实现方法

OCR (Optical Character Recognition)文字进行自动识别的技术,有着悠久的研究历史和广泛的应用场景,如公文电子化、身份认证、数字金融系统、车牌识别等。此外,在工厂中, 通过自动提取产品的文本信息,可以更方便地管理产品。学生的线下作业或试卷可以通过OCR系统实现电子化,使师生之间的交流更加高效。OCR还可以用于标注街景图像的兴趣点(POI),有利于提高地图制作效率。丰富的应用场景赋予OCR技术巨大的商业价值,同时也带来了诸多挑战。

为两:文介绍了一OCRPP-OCR,能精准识别多种场景下的图片中文本。该6622仅为3.5M63仅为2.8M。原创论文中于中(97K)(600K)(17.9万张图像)。

代码可以在GitHub存储库中获得,地址:https://github.com/PaddlePaddle/PaddleOCR。

论文地址:https://arxiv.org/pdf/2009.09941.pdf

模型文件查看与下载地址:GitCode - 全球开发者的开源社区,开源代码托管平台

下面介绍一下PP-OCR模型架构与技术原理

下图为PP-OCR架构图

测:的目的PP-OCR使(Differentiable Binarization DB) 分割

框校:在便

别:PP-OCR使CRNN它对广

详解文测(DBNet):

上图为DBNet架构。

PaddleClass24络结122

ResNet, ResNet_vd, SEResNeXt, Res2Net, Res2Net_vd, DPN, DenseNet, EfficientNet, Xception, HRNet等。轻量级骨干这里采用MobileNetV3。

标检FPN架构区域为了便1 × 1通道(为inner_channels)。640 × 640,很难用SE块估计通道级特征响应。如果用SE块精度提升有限,但时间成本很高。所以从主干中移除SE块,移除SE块后,模型大小从4.1M减小到2.5M,但对精度没有影响。 学习率是控制学习速度的超参数。采用余弦学习率衰减法。在整个训练过程中,余弦学习率衰减保持了一个相对较大的学习率, 因此其收敛速度较慢,但最终收敛精度较好。下图展示余弦学习率中学习率变化情况

详解方类:

用MobileNetV3作

文,一些称为BDA(基 础 数 据 增 强)。 它 们 被 随 机 添 加 到 训 练 图 像 中 。除 了BDA, 最 近 还 提 出 了 一 些新的数据增强操作来提高图像分类的效果,其中RandAugment的效果最好。 最后,将BDA和RandAugment添加到方向分类的训练图像中。 PACT (PArameterized Clipping acTivation)是一种新的在线量化方法,它提前从激活中删一些PACT预活函数的公式如下:

于ReLU函数对普通PACT方法的激活值进行预处理。所有大于某个阈值的激活值都会被截断。然而,MobileNetV3不仅ReLUhard swish。使用普通契约量化会导致较高的量化损失。因此,修改激活预处理的公式如下,以减少量化损失。

使用改进的PACT量化方法对方向分类器模型进行量化。此外,在PACT参数中加入了系数为0.001L2正则化,以提高模型的鲁棒性。

PACTPaddleSlim。PaddleSlim一个架构索。

详解文本识别:

MobileNetV3同 。 下图为文本识别架构CRNN

下图为TIA数据增强

使BDA (Base Data Augmentation),TIA如上11PP-OCRBDATIA加到

化参习中一个一个型在

为了人们weight_decay广使L2(L2_decay)加到

头部采用层将6 000以上PP-OCR48(ImageNet)收敛

LSTMLSTM

在已有PP-OCR模型基础上投入自己数据训练自己的OCR模型方法步骤,可参考另外一个csdn作者提供的文章:PadleOCR训练自己的ocr模型之训练步骤_paddleocr训练分类模型-CSDN博客

在这编文章中,如果你要在本机用gpu进行训练,要求安装gpu版本的PaddlePaddle,你可以先进入这个页面https://www.paddlepaddle.org.cn/whl/windows/mkl/avx/stable.html查看适合你电脑上cuda, cudnn版本的安装文件版本,再用命令安装,如:

Pip install paddlepaddle-gpu==2.6.1.post116 -f https://www.paddlepaddle.org.cn/whl/windows/mkl/avx/stable.html

在没有报错、安装完成情况下,你可以在python程序中用如下代码测试是否能获取到gpu设备:

import paddle

print(paddle.device.get_device())

如果系统有提示lanms 找不到,可以参考下面文章解决:

paddleocr,windows pip 安装巨坑 lanms 库,全网最简单,最直接,最有效(记录贴)

https://blog.csdn.net/weixin_44354483/article/details/129415169

用模型进行推理时候,会返回每张图片中检测出的内容及各个文字框的四角点坐标,如下图所示:

如果是票据或身份证,可以根据不同部分所处位置确定识别的文字代表的字段或属性。

随着大模型的出现与发展,为了解决OCR在不确定多种布局版本的文本图像中识别指定字段内容,出现了PP-OCR与大模型结合使用方法,以提高识别准确率,提高模型的兼容性的效果,这样‌PP-ChatOCRv2模型出现了。

‌PP-ChatOCRv2‌通过将LLM(Large Language Model)与经典的PP-OCR模型结合实现了通用场景下的图片关键信息抽取效果。这种结合的方式支持身份证、银行卡、户口本、火车票等多种场景的关键信息提取。用户只需指明自己所关注的字段,PP-ChatOCR就能从图片中提取出这些字段的信息。这种结合不仅提高了信息抽取的精度,还支持用户自定义关注的信息字段,使得信息提取更加灵活和高效。

具体来说,PP-ChatOCRv2通过将LLMPP-OCR模型相结合,利用LLM的强大语言处理能力,对PP-OCR提取出的文本信息进行进一步的处理和分析,从而实现了对图片中关键信息的抽取和交互。这种结合方式不仅提高了信息抽取的精度,还使得用户能够更方便地获取和处理图片中的关键信息‌。

此外,PP-ChatOCRv2还支持多种场景的关键信息提取,如身份证、银行卡等,这得益于其结合了PP-OCR模型在文本识别方面的优势和LLM在自然语言处理方面的能力。通过这种结合,PP-ChatOCRv2能够有效地从复杂场景的图片中提取出用户所需的关键信息,从而提高了信息处理的效率和准确性。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值