​​​​​​​深度学习在场景文字识别技术中的应用综述

本文探讨了场景文本检测的两类方法:基于回归检测和基于分割。重点介绍了基于回归检测的策略,如FCN、YOLO、TextBoxes及其改进版TextBoxes++,这些方法利用CNN进行特征提取和边界框预测,解决旋转文本检测问题。虽然取得了一定的进展,但仍然面临如网络复杂性、训练时间、检测灵活性和边界连续性等问题。
摘要由CSDN通过智能技术生成

目前的场景文本检测大致可以分为:基于回归检测和基于分割的方法,以及将两者结合的方法。

基于回归检测

通常基于卷积神经网络(CNN)的检测方法是将多个预测得到的候选区域输入到 CNN进行特征提取,并通过分类确定候选区域是否包含目标实例。
文献 Synthetic data for text localisation in natural images[C] 基于全卷积网络(FCN)和 YOLO的思想,提出了一种霍夫投票的变体,利用平移不变性将局部预测器作为 CNN 的最后一层,模型同时密集地预测各像素的类别标签以及基于该像素的预测边界框的参数,显著提高了检测性能。但是整个网络结构仍然过于复杂,严重影响了训练时间,且不能很好地检测旋转文本。

文献 [Deep matching prior network:toward tighter multi-oriented text detection[C]] 中的深度匹配先验网络(DMPNet)首次提出用四边形检测旋转文本。该模型首先利用四边形滑动窗口粗略地召回文本。然而利用滑动窗口定位文本的方法,通常无法避免不必要的滑动窗口与文本实例之间的区域重叠甚至信息丢失。为此提出了一种共享蒙特卡罗方法,使得在计算重叠区域面积时更加高速和精准。该模型摒弃了传统的矩形检测框,有效解决了检测旋转文字时的背景冗余和信息缺失等问题。但是 DMPNet 所使用的滑动窗口是人工设定的,在检测某些极

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值