端到端OCR-ABCNet论文笔记

为了准确地定位图像中面向的和弯曲的场景文本,首次引入了一种新的使用Bezier曲线的弯曲场景文本的简洁参数表示。它介绍了 与标准的边界框表示相比,其计算开销可以忽略不计。

  1. 网络结构

网络结构示意图如下,
在这里插入图片描述
检测head在feature map之后,包含了4个stride=1,padding=1的3*3卷积核。

  1. 贝塞尔曲线

论文使用贝塞尔曲线来拟合检测框的边界,贝塞尔曲线简介可以参考:https://www.jianshu.com/p/0c9b4b681724

论文基于三次贝塞尔曲线,将任意形状的场景文本检测简化为一个共包含8个控制点的bbox。贝塞尔曲线的数学公式如下:
在这里插入图片描述在这里插入图片描述

  1. GT生成

论文使用最小二乘法来生成GT。m代表曲线边界的标注点数量。
在这里插入图片描述

  1. BezierAlign

论文提出了用于特征采样的BezierAlign。BezierAlign是从RoIAlign扩展而来的。Bezier的目的是在弯曲检测区域上对像素点进行采样,或者说,将弯曲特征图还原成矩形的特征图,从而能够送入CTC识别模型。
矩形特征图的尺寸为 w o u t ∗ h o u t w_{out}*h_{out} wouthout g i = ( g i w , g i h ) g_i=(g_iw, g_ih) gi=(giw,gih)是特征图上的像素点,需要用弯曲检测区域上的像素值来填充。 b p bp bp t p tp tp分别为贝塞尔曲线的上下边界,因此每个采样点 o p op op就可以用以下公示计算出来。利用op的位置,可以很容易地应用双线性插值来计算结果。
在这里插入图片描述
之前的采样方法与BezierAlign的比较如图所示:
在这里插入图片描述

  1. 识别

ABCNet的识别部分是一个简单的CRNN+CTC,识别模型的网络结构如下:
在这里插入图片描述
识别的loss是CTCloss,论文好像没有给出检测loss的公式,以及检测和识别loss是如何组合的,二者之间的权重。

  1. 实验

使用resnet50作为主干网络,使用FPN提取特征。
预训练数据集为coco-text,ICDAR-MLT。与其他算法的对比如下:
在这里插入图片描述

弯曲文本数据集为CTW-1500。在弯曲文本数据集上的结果如下:
在这里插入图片描述

文章中使用的数据集都是英文数据集,所以无法确认是否适用于中文数据集。

评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值