EAST文本检测与Keras实现

1. 引言

    之前介绍了文本检测中的CTPN方法,详情可参见《CTPN文本检测与tensorflow实现》,虽然该方法在水平文本的检测方面效果比较好,但是对于竖直文本或者倾斜的文本,该方法的检测就很差,因此,在该方法之后,很多学者也提出了各种改进方法,其中,有一篇比较经典的就是旷世科技在2017年提出来的EAST模型,论文的全称为《EAST: An Efficient and Accurate Scene Text Detector》,论文的下载地址如下: 

    本文将对该方法进行具体介绍,并利用Keras对其进行复现。 

2.EAST模型介绍

2.1 EAST模型结构

    EAST的网络结构总共包含三个部分:feature extractor stem(特征提取分支), feature-merging branch(特征合并分支) 以及 output layer(输出层)。

EAST模型结构
图1 EAST模型结构

    在特征提取分支部分,主要由四层卷积层组成,可以是一些预训练好的卷积层,作者采用的是VGG16中pooling-2到pooling-5每一层得到的feature map。记每一层卷积层卷积后得到feature map为f _ { i },如图1所示,从上到下唉,每一层feature map对应的尺度刚好为输入图像的\frac { 1 } { 32 } , \frac { 1 } { 16 } , \frac { 1 } { 8 }, \frac { 1 } { 4 }

    在特征合并分支部分,其实作者借鉴了U-net的思想,只是U-net采用的是反卷积的操作,而这里采用的是反池化的操作,具体的计算大致如下,对于一个f _ { i },首先经过一层反池化操作,得到与上一层卷积feature map同样大小的特征,然后将其与f _ { i+1 }进行拼接,拼接后再依次进入一层1 \times 13 \times 3的卷积层,以减少拼接后通道数的增加,得到对应的h_{i+1},在特征合并分支的最后一层,是一层3 \times 3的卷积层,卷积后得到的feature map最终直接进入输出层。具体的计算公式如下:

                                                             g _ { i } = \left\{ \begin{array} { l l } { \operatorname { unpool } \left( h _ { i } \right) } & { \text { if } \quad i \leq 3 } \\ { \operatorname { conv } _ { 3 \times 3 } \left( h _ { i } \right) } & { \text { if } \quad i = 4 } \end{array} \right.

                                                    h _ { i } = \left\{ \begin{array} { l l } { f _ { i } } & { \text { if } i = 1 } \\ { \operatorname { conv } _ { 3 \times 3 } \left( \operatorname { conv } _ { 1 \times 1 } \left( \left[ g _ { i - 1 } ; f _ { i } \right] \right) \right) } & { \text { otherwise } } \end{array} \right.

其中,g _ { i }被称为合并基,h _ { i }是合并后得到feature map,[ \cdot ; \cdot]表示连接操作。之所以要引入特征合并分支,是因为在场景文字识别中,文字的大小非常极端,较大的文字需要神经网络高层的特征信息,而比较小的文字则需要神经网络浅层的特征信息,因此,只有将网络不同层次的特征进行融合才能满足这样的需求。

    在输出层部分,主要有两部分,一部分是用单个通道的

  • 10
    点赞
  • 30
    收藏
    觉得还不错? 一键收藏
  • 34
    评论
评论 34
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值