OCR文字识别，即STR场景文本检测网络模型发展概述

最新推荐文章于 2025-03-25 09:21:01 发布

Sesen_s

最新推荐文章于 2025-03-25 09:21:01 发布

阅读量3.3k

点赞数 1

分类专栏： OCR文字识别学习笔记

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_40546602/article/details/102778029

版权

本文介绍了随着深度学习的发展，OCR技术在场景文本检测上的进步，涉及基础网络如FCN、STN，检测网络Faster RNN、SSD、YoloV3等，以及文本检测模型CTPN、RRPN、FTSN等的创新方法，旨在提高自然场景图像中文本检测的准确率。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

随着深度学习的发展，计算机视觉领域涌现出了很多端到端模型，图像、场景文字检测识别模型也在此基础上有个长远发展。

1、基础网络框架

在CV领域，图像识别、检测的基础是特征提取，经典的图像分类模型包括VGGNet，ResNet、InceptionNet（GoogleNet）、DenseNet、Inside-Outside Net、Se-Net等，这些网络可以作为基础网络（通用网络模型），对输入图像进行特征提取。

（1）FCN网络：全卷积网络，Fully convolution network，擅长提取图像细节特征

全卷积网络是不使fc全连接层的基础网络，最初用于语义分割。

特点：用反卷积、上池化、亚像素卷积层等手段进行上采样操作，将特征矩阵恢复。

FCN网络最后一层特征图的像素分辨率较高，在场景文字识别中需要依赖清晰的文字笔画来区分不同的字符（特别是汉字），FCN网络很适合用来提取图片上文本特征。FCN用于文字识别时，最后一层特征图每个像素被分成文字行（前景）和非文字行（背景）两个类别。

（2）STN网络：空间变换网络，Spatial Transformer Networks，擅长做图形矫正

对输入特征图进行空间位置矫正得到输出特征图，此处不详细展开。

2、检测网络框架

检测网络按照训练过程可分为one-stage和two-stage方法，按照是否需要anchor可分为anchor-based和anchor-free方法。

（1）Faster RCNN网络-two-stage：

RPN网络寻找proposal建议框，ROI pooling为多种尺寸参考框产生归一化固定尺寸区域特征，分类、回归网络。

损失函数：多目标损失函数，RPN分类（前后景）、回归损失函数，最后的分类（种类）和坐标回归loss。

优化目标：通过loss反向传播，调节候选框坐标，增大与标注对象bbox的IOU。

（2）SSD网络 -One stage

SSD全称Single Shot MultiBox Detector，2016年被提出，全卷积目标检测算法。

特点：多尺度融合，在不同尺度的feature maps上生成anchor，进行分类和回归，NMS最大值抑制得到最终结果。

（3）YoloV3 - One stage

（4）CenterNet - anchor free

3、文本检测模型

目的：在图片中，准确找出文字所在区域。

存在问题：直接套用目标检测通用方法如Faster RCNN系列，SSD系列，Yolo系列等方法&#x

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。