大话文本检测经典模型:EAST

1bbab54f2e61e523c6571612388aa13fea5.jpg

自然场景的文本检测是当前深度学习的重要应用,在之前的文章中已经介绍了基于深度学习的文本检测模型CTPN、SegLink(见文章:大话文本检测经典模型CTPN大话文本检测经典模型SegLink)。典型的文本检测模型一般是会分多个阶段(multi-stage)进行,在训练时需要把文本检测切割成多个阶段(stage)来进行学习,这种把完整文本行先分割检测再合并的方式,既影响了文本检测的精度又非常耗时,对于文本检测任务上中间过程处理得越多可能效果会越差。那么有没有又快、又准的检测模型呢?

 

一、EAST模型简介

本文介绍的文本检测模型EAST,便简化了中间的过程步骤,直接实现端到端文本检测,优雅简洁,检测的准确性和速度都有了进一步的提升。如下图:

fda45f2f386b0fd655daf14e2dfb88a3427.jpg

其中,(a)、(b)、(c)、(d)是几种常见的文本检测过程,典型的检测过程包括候选框提取、候选框过滤、bouding box回归、候选框合并等阶段,中间过程比较冗长。而(e)即是本文介绍的EAST模型检测过程,从上图可看出,其过程简化为只有FCN阶段(全卷积网络)、NMS阶段(非极大抑制),中间过程大大缩减,而且输出结果支持文本行、单词的多个角度检测,既高效准确,又能适应多种自然应用场景。(d)为CTPN模型,虽然检测过程与(e)的EAST模型相似,但只支持水平方向的文本检测,可应用的场景不如EAST模型。如下图:

  • 0
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
EAST(Efficient and Accurate Scene Text detection)是一种基于深度学习的文本检测算法,它采用了FCN(Fully Convolutional Network)和RNN(Recurrent Neural Network)结合的方式来进行文本检测,具有高效和准确的特点。 EAST算法的网络结构如下: 1. VGG16网络 EAST算法采用VGG16网络作为特征提取器,VGG16网络是一个经典的卷积神经网络,它包含了13个卷积层和3个全连接层。 2. FCN网络 在VGG16网络的基础上,EAST算法使用了一个FCN网络来进行像素级别的文本检测。FCN网络包含了4个卷积层和1个转置卷积层,其中转置卷积层用于将低分辨率的特征图上采样到原始输入图像的分辨率上。FCN网络的输出是一个与输入图像大小相同的二值化的特征图,其中文本区域被标记为1,非文本区域被标记为0。 3. RNN网络 为了解决文本行的连续性问题,EAST算法使用了一个RNN网络来对文本行进行连接。RNN网络是一个循环神经网络,可以利用上一时刻的状态来影响当前时刻的输出。EAST算法使用了双向LSTM(Long Short-Term Memory)来进行文本行的连接,将FCN网络的输出作为LSTM的输入,LSTM网络的输出是一个与输入图像大小相同的文本概率图。 4. Detection Head网络 为了进一步提高检测性能,EAST算法使用了一个Detection Head网络来进行检测。Detection Head网络包含了2个卷积层和1个全连接层,其中全连接层的输出是检测框的位置和形状信息。检测框的位置和形状信息被用于生成最终的文本检测结果。 总体来说,EAST算法的网络结构比较复杂,但是它能够有效地解决文本行的连续性问题,并且在文本检测的性能上表现出色。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值