OCR文字识别,即STR场景文本检测 网络模型发展概述

本文介绍了随着深度学习的发展,OCR技术在场景文本检测上的进步,涉及基础网络如FCN、STN,检测网络Faster RNN、SSD、YoloV3等,以及文本检测模型CTPN、RRPN、FTSN等的创新方法,旨在提高自然场景图像中文本检测的准确率。
摘要由CSDN通过智能技术生成

随着深度学习的发展,计算机视觉领域涌现出了很多端到端模型,图像、场景文字检测识别模型也在此基础上有个长远发展。

1、基础网络框架

   在CV领域,图像识别、检测的基础是特征提取,经典的图像分类模型包括VGGNet,ResNet、InceptionNet(GoogleNet)、DenseNet、Inside-Outside Net、Se-Net等,这些网络可以作为基础网络(通用网络模型),对输入图像进行特征提取。

(1)FCN网络:全卷积网络,Fully convolution network,擅长提取图像细节特征

        全卷积网络是不使fc全连接层的基础网络,最初用于语义分割。 

        特点:用反卷积、上池化、亚像素卷积层等手段进行上采样操作,将特征矩阵恢复。

        FCN网络最后一层特征图的像素分辨率较高,在场景文字识别中需要依赖清晰的文字笔画来区分不同的字符(特别是汉字),FCN网络很适合用来提取图片上文本特征。FCN用于文字识别时,最后一层特征图每个像素被分成文字行(前景)和非文字行(背景)两个类别。

(2)STN网络:空间变换网络,Spatial Transformer Networks,擅长做图形矫正

      对输入特征图进行空间位置矫正得到输出特征图,此处不详细展开。

2、检测网络框架

检测网络按照训练过程可分为one-stage和two-stage方法,按照是否需要anchor可分为anchor-based和anchor-free方法。

(1)Faster RCNN网络-two-stage

        RPN网络寻找proposal建议框,ROI pooling为多种尺寸参考框产生归一化固定尺寸区域特征,分类、回归网络。

        损失函数:多目标损失函数,RPN分类(前后景)、回归损失函数,最后的分类(种类)和坐标回归loss。

        优化目标:通过loss反向传播,调节候选框坐标,增大与标注对象bbox的IOU。

(2)SSD网络 -One stage

        SSD全称Single Shot MultiBox Detector,2016年被提出,全卷积目标检测算法。

        特点:多尺度融合,在不同尺度的feature maps上生成anchor,进行分类和回归,NMS最大值抑制得到最终结果。

(3)YoloV3 - One stage

(4)CenterNet - anchor free

3、文本检测模型

目的:在图片中,准确找出文字所在区域。

存在问题:直接套用目标检测通用方法如Faster RCNN系列,SSD系列,Yolo系列等方法&#x

  • 1
    点赞
  • 20
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值