文字检测+识别之FOTS

最新推荐文章于 2024-07-16 10:34:00 发布

watersink

最新推荐文章于 2024-07-16 10:34:00 发布

阅读量1.9w

点赞数 10

分类专栏： OCR OCR大趴踢

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_14845119/article/details/84635847

版权

OCR大趴踢同时被 2 个专栏收录

30 篇文章 71 订阅

订阅专栏

28 篇文章 9 订阅

订阅专栏

论文：FOTS: Fast Oriented Text Spotting with a Unified Network

Github：https://github.com/jiangxiluning/FOTS.PyTorch

商汤和深圳先进院乔宇老师合租的作品。

FOTS是一个快速的端到端的集成检测+识别的框架，和其他two stage的方法相比，FOTS具有更快的速度。

蓝色框中表示FOTS，红色框表示其他two stage的方法。可见FOTS的速度几乎是别的方法的一半。

论文贡献：

提出了端到端的快速的文本检测+识别一体化的方案。
提出了RoIRotate ，类似于roi pooling 和roi align，该操作主要池化带方向的文本区域，通过该操作可以实现将文本检测和文本识别端到端的连接起来。
FOTS在公开数据集ICDAR 2015, ICDAR 2017 MLT，ICDAR 2013 上取得了state of the art的效果。

整体结构：

FOTS的整体结构由4部分组成。shared convolutions，the text detection branch， RoIRotate operation，the text recognition branch。

shared convolutions：

FOTS的基础网络结构为Resnet50，共享卷积层采用了类似U-net的卷积的共享方法，将底层和高层的特征进行了融合。这部分和EAST中的特征共享方式一样。最终输出的特征图大小为原图的1/4。

the text detection branch：

该模块和EAST完全一样。

Loss函数如下，

包括了分类的loss（cross entrop）和坐标的回归的loss（IOU loss），实验中，平衡因子，λreg =1。

RoIRotate operation：

该模块将有角度的文本块，经过仿射变换，转化为正常的axis-glign的文本块。

M:仿射变换矩阵，包含旋转，缩放，平移

Ht:仿射变换后的特征图的高度，实验中为8

wt:仿射变换后的特征图的宽度

(x,y):特征图中的点的位置

(t; b; l; r) :特征图中的点距离旋转的框的上下左右的距离

θ:检测框的角度

Vcij:在位置（i,j），通道c处的输出值。

Ucnm:在位置（i,j），通道c处的输入值。

hs:输入的高度

ws:输入的宽度

Φx, Φy :双线性插值的核的参数

the text recognition branch：

该模块主要为crnn结构。

Y*表示一条识别结果的路径，其中识别的字符的个数T<=图片宽度W

B 表示所有的多对一的路径的集合

最终实验的loss为检测+识别的loss,λrecog =1

实验结果：

ICDAR2015结果：

ICDAR2017 MLT结果：

ICDAR2013结果：

速度和模型大小：

总结：

FOTS一个检测+识别一体化的框架，具有模型小，速度快，精度高，支持多角度，的特点。

关注

10
点赞
踩
46

收藏

觉得还不错? 一键收藏
9
评论
文字检测+识别之FOTS

论文：FOTS: Fast Oriented Text Spotting with a Unified NetworkGithub：https://github.com/jiangxiluning/FOTS.PyTorch 商汤和深圳先进院乔宇老师合租的作品。 FOTS是一个快速的端到端的集成检测+识别的框架，和其他two stage的方法相比，FOTS具有更快的速度。...
复制链接

扫一扫

专栏目录

评论 9

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。