[论文阅读] CTPN---Detecting Text in Natural Image with Connectionist Text Proposal Network

最新推荐文章于 2019-11-25 21:46:59 发布

UpCoderXH

最新推荐文章于 2019-11-25 21:46:59 发布

阅读量893

点赞数 2

分类专栏：深度学习论文阅读文章标签： CTPN Text Detection Deel Learning Paper

本文链接：https://blog.csdn.net/liangdong2014/article/details/79690118

版权

深度学习同时被 2 个专栏收录

27 篇文章 0 订阅

订阅专栏

论文阅读

17 篇文章 0 订阅

订阅专栏

这篇论文思路和Faster RCNN是差不多的。总体来说，就是先通过RPN(Region Proposal Network)来提取proposal，然后再对提取得到的proposal进行classification。
阅读实现代码：CTPN
文章对Faster RCNN有以下几点修改：
- Faster RCNN中使用的3种size和3种长宽比组合的9种anchor，但是CTPN中，他固定了anchor为16px(vgg16, 因为有4个pooling 层),而只是设置了10种高的值。这样是结合了text detection的特点，一般都是细长的结构。
- 再得到Feature map之后，我们通过一个BD-LSTM结构去提取每个pixel对应的Feature。这样做是为了利用global information。他将一行的pixel看成一个序列输入给BD-LSTM去提取Feature。得到BD-LSTM的输出以后，我们再去得到每个anchor的score以及对应的anchor的坐标值。
- 还有一个contribution是他对水平坐标还做了一定的微调。具体的公式如下所示：
  $o = (x_{side} - c_x^a) / w^a, o^* = (x_{side}^* - c_x^a) / w^a$
  这里面o代表的predict， $o^*$ 代表的是GT。 $x_{side}$ 代表的是未修正的预测的anchor的坐标， $x_{side}^*$ 代表的就是ground truth。 $c_x^a$ 代表anchor的对心所对应的x坐标。 $w^a$ 代表anchor的宽，这里是固定值（16）。之所以除以宽相对于做了一定的归一化吧。
算法的流程：如图上所示:
- 首先通过常规的特征提取模块(例如，VGG16)来得到feature map，假设大小为 $h * w * c$ ，其stride为16。
- 通过一个卷积层，将其转化为 $h * w * 256$ 的shape
- 我们将其转化为 $h * (w * 256)$ ,其中，将 $w * 256$ 看成一个长度为w的输入序列，将其输入到BD-LSTM中。
- 将得到feature 再转化成 $h * w * d$ 其中d代表的是BD-LSTM输出的维度
- 在此，我们得到了一个新的feature map, FM，他相对于VGG16的原始输入，他扩大了同一个pixel（feature map）的水平感受野，使其扩展到了整个水平方向。
- 在新FM的基础上，我们再通过卷积层，将其转化为预测anchor的label和anchor的坐标回归值。
- 现在我们已经得到了 $H * W * (A * 2)$ 和 $H * W * (A * 4)$ 的anchor score 和 anchore regression。接下来怎么办呢？接下来train和test有所不同。train比test多了一些计算anchor label和regression label的操作。对于两者共有的部分自然就是proposal的生成。
- proposal对于训练来说其实就是过滤了一些anchor，保留了一些正负样本的anchor。对于测试来说只是通过nms来过滤了一些anchor，并没有通过label来确保正负anchor 的平衡（但是在训练阶段是有这项操作的）。
- 训练的过滤机制：
  - 首先计算所有anchor和gt_boxes的overlap，由此可以确定anchor的label（是正还是负）
  - 知道是正负的后，正负数量平衡之后可以过滤掉一部分anchor。这里的过滤是指赋予小的权重。
- regression的gt如何计算？
  - 从上面我们可以知道每个anchor和gt_boxes的overlap，所以我们就指定与正anchor overlap最大的gt_box为该anchor的gt
  - 然后我们计算dx,dy,dw,dh
  - $dx = (center_{x_{anchor}} - center_{x_{gt}}) / width_{anchor}$
  - $dy = (center_{y_{anchor}} - center_{y_{gt}}) / width_{anchor}$
  - $log(\frac{width_{gt}}{width_{anchor}})$
  - $log(\frac{height_{gt}}{height_{anchor}})$
  - 通例，我们在test阶段，也可以利用 $dx_{pred}, dy_{pred}, dw_{pred}, dh_{pred}$ 来进行anchor坐标的更新。注意在faster RCNN中，我们即更新中心点的xy坐标，还更新height和width。但是在CTPN中，由于其使用的vertical mechanism，所以我们只更新y坐标的height的值。
- CTPN其实本质上来说是one stage的，因为faster RCNN后续对proposal的处理CTPN是不需要的，因为正的proposal肯定都是一个类（文本），不存在再对proposal进行多分类的问题。
- 然后再分别通过全连接层来对每个anchor预测score以及坐标。注意，这里是对feature map中的每个pixel进行预测的。也就是说我们fc的输出分别是hw(102)以及hw*(10*4)
- 最后使用上面步骤训练好的网络，得到类似与上图B的许多anchor，然后在使用连接算法，将其连接起来。连接算法的定义如下：
  - 首先挑选出所有score>0.7的anchor
  - 针对每个anchor, $B_i$ 定义他的邻居anchor $B_j$ , 他们要满足以下条件
    - 这两个anchor的最近的
    - anchor之间的距离小于50个pixel
  - 如果 $B_i$ 和 $B_j$ 互为邻居，那么就将其合并，知道找不到互为邻居的anchor为止。
anchor机制：
- 我们先得到feature map上的每个点对应到原图的点得到一个数组，_anchor,其shape=[k, 4],k = FM的长乘以宽
- 然后再将每个anchor相对的坐标加上去。得到最后在所有的anchor在原图中的坐标。
上面讲了算法的流程，接下来我们看一下loss的定义，来了解具体我们怎么训练我们的网络
$L(s_i,v_j,o_k) = \frac{1}{N_s}\sum_iL_s^{cl}(s_i, s_i^*) + \frac{\lambda_1}{N_v}\sum_jL_v^{re}(v_j, v_j^*) + \frac{\lambda_2}{N_o}\sum_kL_o^re(o_k, o_k^*)$
- 上面是训练的整体的loss，它由三部分组成，第一部分是分类的交叉熵，第二部分是对垂直坐标做regression的Smooth L1loss，第三部分是对水平坐标做regression的Smooth L1 loss。
- $s_i$ 代表的是第i个anchor预测是text的概率， $s_i^*$ 是对应的ground truth{0,1}。
- $v_j, v_j^*分别代表的是第j个anchor所对应纵坐标的预测值和ground truth。注意，这里的j和i不一样是因为，这里我们只计算probability>0.7或者是$ s_j^*=1$的anchor，也就是只计算正样本
- Smooth L1 loss的定义如下：
  $w_{in} (x_i - y_i) i\in\{x,y,w,h\}\\ smooth_i = \left\{\begin{matrix} \frac{1}{2}var_i^2\sigma^2& |x\sigma|<1\\ |var_i|-\frac{\sigma^2}{0.5} & otherwise \end{matrix}\right.\\ SmoothL1Loss = \sum_{i}smooth_i$
- 这里使用Smooth L1 loss主要是因为：L1 loss会产生更稀疏的矩阵，L2 loss会产生更平滑的矩阵(原因)。但是有一个问题是L2如果我们var太大的话，还产生梯度爆炸，所以我们在这里使用了Smooth L1 Loss，他其实是一个分段的函数。如果var较小的话，我们使用L2 loss，否则，我们使用L1 loss。
自问自答？
- 什么是vertical mechanism？
  - 正如我们在上面提到的那样，我们会预测得到 $d x, d y, d w, d h$ 。一般的faster RCNN会利用上述四个值去修正anchor的坐标得到proposal。但是CTPN只利用了dy和dh的信息，因为横坐标的值是固定的。
- 作者是如何将提取的proposal连接起来的？
  - 在测试阶段，我们先通过对anchor进行坐标修正和nms，得到proposal。每个proposal的width都是16(stride)。
  - 接下来，我们构建一个有向图，图中每个节点代表的一个proposal。判断proposal之间的联系。如下图所示。
  - 如果A->B
    - 则B的横坐标必须大于A，且在所有横坐标大于A的proposal中B的横坐标是最小的。
    - B与A的横坐标距离不超过50pixel
    - 垂直的overlap大于一定的阈值
    - height差距不是特别大
  - 接下来对于每个proposal，我们判断其在图中的入边的个数是否为0。如果是，并且出边不为0。纳入集合A中，再找到next指向的proposal，将其纳入集合A，迭代下去，直到proposal没有出边(也就是说是text line的最后一个proposal)。
  - 针对我们找到的每行，我们对应的是一个proposal的集合。那我们怎么得到最终这一行的bounding box呢？
    - 我们首先可以计算得到x_min 和 x_max
    - 我们先通过proposals[:, 0], proposal[:, 1]拟合一条直线，再取x_max, x_min在这条直线上y的值的最小值。
    - 我们先通过proposals[:, 0], proposal[:, 3]拟合一条直线，再取x_max, x_min在这条直线上y的值的最大值。
    - 上述之所以取最小最大是因为我们的输出是bounding box，而不是任意四边形。
  - 至此，我们就完成了一行proposal的合并。
有问题，欢迎探讨

UpCoderXH

关注

2
点赞
踩
2

收藏

觉得还不错? 一键收藏
10
评论
[论文阅读] CTPN---Detecting Text in Natural Image with Connectionist Text Proposal Network

这篇论文思路和Faster RCNN是差不多的。总体来说，就是先通过RPN(Region Proposal Network)来提取proposal，然后再对提取得到的proposal进行classification。文章对Faster RCNN有以下几点改进： Faster RCNN中使用的3种size和3种长宽比组合的9种anchor，但是CTPN中，他固定了anchor为16px(vgg...
复制链接

扫一扫

专栏目录