端到端OCR-ABCNet论文笔记

阿飞大魔王

已于 2022-10-05 16:36:32 修改

阅读量943

点赞数

分类专栏： OCR 文章标签：论文阅读深度学习机器学习

于 2022-10-02 17:41:25 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/lucifer_24/article/details/127142790

版权

OCR 专栏收录该内容

4 篇文章

订阅专栏

本文介绍了一种使用Bezier曲线表示弯曲场景文本的新方法，该方法通过将文本边界简化为仅含8个控制点的bbox，实现了高效且精确的文本定位。文中详细解释了Bezier曲线的生成及采样过程，并展示了在多个数据集上的优秀表现。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

为了准确地定位图像中面向的和弯曲的场景文本，首次引入了一种新的使用Bezier曲线的弯曲场景文本的简洁参数表示。它介绍了与标准的边界框表示相比，其计算开销可以忽略不计。

网络结构

网络结构示意图如下，
在这里插入图片描述
检测head在feature map之后，包含了4个stride=1，padding=1的3*3卷积核。

贝塞尔曲线

论文使用贝塞尔曲线来拟合检测框的边界，贝塞尔曲线简介可以参考：https://www.jianshu.com/p/0c9b4b681724

论文基于三次贝塞尔曲线，将任意形状的场景文本检测简化为一个共包含8个控制点的bbox。贝塞尔曲线的数学公式如下：
在这里插入图片描述

GT生成

论文使用最小二乘法来生成GT。m代表曲线边界的标注点数量。
在这里插入图片描述

BezierAlign

论文提出了用于特征采样的BezierAlign。BezierAlign是从RoIAlign扩展而来的。Bezier的目的是在弯曲检测区域上对像素点进行采样，或者说，将弯曲特征图还原成矩形的特征图，从而能够送入CTC识别模型。
矩形特征图的尺寸为 $w_{out}*h_{out}$ ， $g_i=(g_iw, g_ih)$ 是特征图上的像素点，需要用弯曲检测区域上的像素值来填充。 $b p$ 和 $tp$ 分别为贝塞尔曲线的上下边界，因此每个采样点 $o p$ 就可以用以下公示计算出来。利用op的位置，可以很容易地应用双线性插值来计算结果。
在这里插入图片描述
之前的采样方法与BezierAlign的比较如图所示：

识别

ABCNet的识别部分是一个简单的CRNN+CTC，识别模型的网络结构如下：
在这里插入图片描述
识别的loss是CTCloss，论文好像没有给出检测loss的公式，以及检测和识别loss是如何组合的，二者之间的权重。

实验

使用resnet50作为主干网络，使用FPN提取特征。
预训练数据集为coco-text，ICDAR-MLT。与其他算法的对比如下：
在这里插入图片描述

弯曲文本数据集为CTW-1500。在弯曲文本数据集上的结果如下：
在这里插入图片描述

文章中使用的数据集都是英文数据集，所以无法确认是否适用于中文数据集。

阿飞大魔王

博客等级

码龄10年

31
原创

40
点赞

321
收藏

31
粉丝

关注

私信

热门文章

分类专栏

OCR 4篇
KIE 2篇
人脸识别 1篇
目标检测 13篇
机器学习 1篇
语义分割 2篇
图像处理 2篇
C++ 3篇
算法 4篇
面试

展开全部收起

上一篇：: 传统表格线检测算法

下一篇：: 文本检测-基于分割的文本检测算法论文笔记

最新评论

人脸检测：RetinaFace和CenterFace
ʚɞ x: 你好，博主有widerface验证集吗
端到端OCR-ABCNet论文笔记
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
文本检测-基于分割的文本检测算法论文笔记
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
目标检测-Focal loss
敏敏先生: 请问这是多分类还是二分类啊
端到端OCR-ABCNet论文笔记
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34 给我们提。

最新文章

目录

展开全部

收起

评论 3

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。