2023文本定位模型选型调研

背景

时间点:2023年03月

场景:做一个通用型的多种证件解析服务

需求:调研一种又新又快的定位模型。要求:1)支持倾斜的文字,可以是4点定位或分割法后获取box,但不能是2点的定位;2)快速,过往的psenet需要至少0.6s,pan和db在一些场景中效果差一点但快,是否有更好平衡速度和效果的方法;3)方便改输出通道数量,这种一般是分割?;4)边缘准确;5)适用于中文大字典

方法:从3个方法研究,pp、mmocr、papers with code

调研

PP

https://github.com/PaddlePaddle/PaddleOCR/blob/release/2.6/doc/doc_ch/PP-OCRv3_introduction.md

 assert alg in [
        'EAST', 'DB', 'SAST', 'Rosetta', 'CRNN', 'STARNet', 'RARE', 'SRN',
        'CLS', 'PGNet', 'Distillation', 'NRTR', 'TableAttn', 'SAR', 'PSE',
        'SEED', 'SDMGR', 'LayoutXLM', 'LayoutLM', 'LayoutLMv2', 'PREN', 'FCE',
        'SVTR', 'ViTSTR', 'ABINet', 'DB++', 'TableMaster', 'SPIN', 'VisionLAN',
        'Gestalt', 'SLANet', 'RobustScanner', 'CT', 'RFL', 'DRRG', 'CAN',
        'Telescope'
    ]

PP-OCRv3检测模块仍基于DB算法优化,而识别模块不再采用CRNN,换成了IJCAI 2022最新收录的文本识别算法SVTR

mmocr

https://gitee.com/open-mmlab/mmocr#%E6%A8%A1%E5%9E%8B%E5%BA%93

最新的检测识别是dbnet++、SVTR

papers with code

从ppocr和mmocr看到,2者选择的方案都是dbnet++及SVTR,dbnet++是2022年的算法。在paperswithcode中,不是特别高的排名,有个疑问,为啥最后会选用这个呢?出于速度考虑???

https://paperswithcode.com/paper/real-time-scene-text-detection-with-1

目前考虑的方法

DPText-DETR,排名最高,后续试了效果还不错,感动,哪怕是有600多切片的图片,速度也在0.1-0.2s

FAST-B-800,排名2

DBNet++ 商业化落地最多的

排除的方法

TextFuseNet不适合中文

I3CL + SSL 没相关资料文章,怕有坑,本身也不是最好的2个

CharNet H-88 不适合中文

N种排名靠前的算法

DPText-DETR 京东探索研究院

时间:2022.07

开源:https://github.com/ViTAE-Transformer/DeepSolo

paper:DPText-DETR: Towards Better Scene Text Detection with Dynamic Points in Transformer

是否支持曲线文本:是

速度:

解读:https://blog.csdn.net/moxibingdao/article/details/128910689

https://zhuanlan.zhihu.com/p/569496186

原先算法的缺陷:

1)用xywh表示位置先验信息导致训练慢

2)基于阅读顺序的标注方法(即文本开始循环一圈)降低了模型性能。

本文创新点:

  1. 显式点query构建(Explicit Point Query Modeling, EPQM) 方法,用上下边界多点均匀采样得到的N点代替xywh的box,显示细化的位置先验信息有助于加速收敛。即用固定数量控制点代替检测框

2)增强的因子化自注意(Enhanced Factorized Self-Attention, EFSA) 模块,挖掘同一文本实例内

控制点query之间的关系。引入了环形卷积与实例内自注意力并行以提供显式的环形引导,明确地模拟多边形点序列的圆形,引入更多的先验以充分挖掘实例内不同控制点query的关系。增强的实例内关系建模与实例间关系建模共同构成了EFSA模块。

3)不依赖文本阅读顺序的标签形式

消融实验如下,可以看到不同新模块对速度及精度的影响

基于DEtection TRansformer (DETR) 框架,detr是2020年facebook基于vision transformer做的目标检测工作,没有了anchor和box操作。架构如下图:

https://blog.csdn.net/qq_35831906/article/details/124118569

FAST-B-800

时间:2021

开源:是

paper:FAST: Faster Arbitrarily-Shaped Text Detector with Minimalist Kernel Representation

是否支持曲线文本:是

速度:快

NAS网络搜索

backbone+类似残差结构+预测层(head)+Text dilation

https://blog.csdn.net/qq_44498420/article/details/125593141

TextFuseNet

时间:2020

开源:

paper:TextFuseNet: Scene Text Detection with Richer Fused Features

是否支持曲线文本:是

是否适合中文:否

速度:

解读:https://blog.csdn.net/lz867422770/article/details/109170271

参考maskTextspotter和maskRCNN的思想,做实例分割。框架如下图,提取字符,单词和全局级别的特征,并引入多路径融合体系结构以融合它们以进行准确的文本检测。

maskTextspotter是单词级别的检测分割,不适合中文场景。

I3CL + SSL

时间:2021

开源:

paper:I3CL:Intra- and Inter-Instance Collaborative Learning for Arbitrary-shaped Scene Text Detection

是否支持曲线文本:

速度:

CharNet H-88

时间:2019

开源:是

paper:Convolutional Character Networks

是否支持曲线文本:是

是否适合中文:否

速度:

https://zhuanlan.zhihu.com/p/90683589

在字符级annotation的基础上完成了文本检测和识别的one-stage网络。又是字符级,做中文不考虑。

FAST-B-640

比800弱一点

DBNet++

时间:2022

开源:是

paper:

Real-Time Scene Text Detection with Differentiable Binarization and Adaptive Scale Fusion

是否支持曲线文本:

速度:

https://blog.csdn.net/qq_14845119/article/details/127103550

DBNet:Real-time Scene Text Detection with Differentiable BinarizationReal-time Scene Text Detection with Differentiable Binarization

DBNet++:Real-Time Scene Text Detection with Differentiable Binarization and Adaptive Scale Fusion

如下图,横轴是FPS,纵轴是F,db++牺牲了一点速度获得了性能的提升。

输出是概率图(probability map)和阈值图(threshold map)

DBNet++在DBNet的基础上增加了ASF(Adaptive Scale Fusion)模块。不同尺度的特征通过ASF模块处理,可以得到更佳的融合特征。

ASF模块通过引入空间attention机制,使得融合后的特征更加鲁棒。

其中N表示要融合的特征数,这里N=4,表示从4个不同的分支引出的特征。

db差异二值化的作用:每个像素都使用不同的阈值进行二值化处理。而这个不同的阈值矩阵又是网络学习得到的。为了保证整个优化过程有梯度的传递,这里又将概率图和阈值图的差传入sigmoid函数,以此来保证梯度的传递。通过梯度优化,保证了不同的图片使用不同的阈值矩阵,达到最佳的二值化效果。

如何处理相邻较近的文本:为了增大相邻文字之间的间距,缓解文字离得太近或者部分重叠的情况。概率图(probability map)的制作会在原始红色多边形的基础上,使用Vatti clipping算法,向内收缩D的距离。

阈值图(threshold map)在红色多边形的基础上,分别向内收缩D距离形成蓝色多边形,向外扩张D距离形成绿色多边形。蓝色多边形和绿色多边形之间的像素形成阈值图。然后计算图内每个像素离最近的边(蓝色边,绿色边)的归一化距离,形成最终的阈值图。阈值图看起来中间像素亮,边缘像素暗。

后处理时,使用概率图(probability map)或者使用二值图(approximate binary map)都是可以的。两者在效果上是一样的。这样在推理过程中,就可以去掉网络中的二值化过程,直接使用概率图。这样网络中的二值化过程的loss就更像一个辅助loss,来使得网络训练的效果更好。

简单来说,后处理时通过概率图获取中心连通域,再用规则缩放边界。

DBNet

网络输入假设为w*h*3。网络整体结构采用FPN的设计思想,进行了5次下采样,3次上采样操作。最终的输出特征图大小为原图的1/4。网络头部部分,分别引出2个分支。一个负责预测概率图(probability map,(w/4)*(h/4)*1),代销为,另一个负责预测阈值图(threshold map,(w/4)*(h/4)*1)。概率图经过阈值图处理,进行二值化后得到二值图(approximate binary map,(w/4)*(h/4)*1)。最后经过后处理操作得到最终文字的边。

  • 6
    点赞
  • 15
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
### 回答1: MES系统(Manufacturing Execution System,制造执行系统)选型的需求调研,需要考虑以下几点: 1. 公司的业务需求:MES系统主要用于制造企业的生产过程控制和管理,因此需要考虑公司的生产过程和业务需求,以确定MES系统所需的功能和特性。 2. 系统的可靠性和稳定性:MES系统在生产过程中扮演着重要角色,需要保证系统的可靠性和稳定性,避免出现系统崩溃或数据丢失等问题。 3. 系统的易用性和可维护性:MES系统需要能够方便地操作和管理,同时要求系统具备一定的可维护性,以便及时解决可能出现的问题。 4. 系统的适应性和扩展性:MES系统需要能够适应不同的生产流程和制造方式,并具有一定的扩展性,以应对公司未来的发展需求。 5. 系统的安全性:MES系统中包含大量敏感信息,如生产计划、生产数据等,因此需要保证系统的安全性,避免数据泄露和被攻击等安全问题。 总之,MES系统选型的需求调研需要全面考虑公司的业务需求、系统的可靠性、易用性、适应性、扩展性和安全性等因素。 ### 回答2: MES系统(Manufacturing Execution System,制造执行系统)是一种用于管理和控制制造过程的软件系统。在进行MES系统选型前,需要进行需求调研,以确定具体的系统功能和要求。 首先,需求调研需要明确企业的制造需求和目标。这包括生产计划、物料管理、质量控制、设备管理、人力资源等方面的需求。通过与各部门的沟通和了解,可以确保选取的MES系统能够满足企业的特定需求。 其次,需求调研需要考虑企业的规模和复杂程度。不同规模的企业和不同类型的制造过程可能需要不同的MES系统。对于大型企业和复杂的制造过程,需要选取具备高度定制化和集成能力的MES系统,以确保系统能够与企业的现有系统和流程无缝衔接。 第三,需求调研还需要考虑系统的易用性和用户界面。选取的MES系统应该具备直观、易操作的用户界面,可以方便操作人员使用和学习。此外,系统还应该支持移动设备的使用,满足现代制造环境中远程操作和实时监控的需求。 最后,需求调研需要考虑系统的安全性和稳定性。制造过程的管理涉及到企业的核心数据和机密信息,选取的MES系统应具备严格的安全措施,以防止数据泄漏和系统攻击。此外,系统的稳定性和可靠性也是选型的重要考虑因素,因为任何系统的故障都可能对企业的生产效率和质量产生严重影响。 总而言之,通过需求调研可以帮助企业准确定位MES系统的功能和要求,选取适合企业特定需求的系统,从而提高生产效率、降低成本,并增强企业在市场竞争中的优势。 ### 回答3: MES系统选型需求调研是为了确定企业对MES系统的具体需求和标准,以便选择最适合的系统。调研需求的过程包括以下几步: 首先,明确调研目的。了解为什么企业需要MES系统,以及希望通过MES系统实现哪些目标和效益。可能的目标包括生产过程的优化、减少物料浪费、提高生产效率、提升产品质量等。 其次,收集相关信息。通过与各部门和人员的沟通,收集关于企业当前生产流程、现有系统和工艺的信息。此外,还可以参考行业内的最佳实践和成功案例,以帮助理解MES系统在该行业中的应用和潜力。 然后,明确需求和标准。根据企业的实际情况和目标,确定MES系统的具体需求和功能。例如,是否需要实时监控和控制生产过程、是否需要与其他系统进行数据集成、是否需要支持多语言等。此外,还需制定一些标准和指标,以便比较和评估不同的MES系统。 接着,寻找合适的MES系统供应商。根据企业的需求和标准,筛选并联系一些潜在的供应商,了解他们的产品和服务,以及他们的实施和支持能力。可以通过电话咨询、产品演示和参观供应商的客户等方式,进一步了解供应商的能力和信誉。 最后,结合实际情况进行综合评估和选择。根据调研结果和与供应商的沟通,综合考虑成本、功能、实施和支持能力等因素,选择最适合企业需求的MES系统供应商。 总之,MES系统选型需求调研是一个深入了解企业需求、明确目标和标准、寻找合适供应商的过程。只有通过认真调研,才能选择到最合适的MES系统,提升企业的生产效率和竞争力。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值