【文字识别】Scene Text Recognition With Finer Grid Rectification论文阅读

最新推荐文章于 2023-02-12 10:01:41 发布

农夫山泉2号

最新推荐文章于 2023-02-12 10:01:41 发布

阅读量938

点赞数

分类专栏： ocr

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u011622208/article/details/104156573

版权

ocr 专栏收录该内容

44 篇文章 6 订阅

订阅专栏

地址： 论文
思路： 这篇论文采用矫正再识别的思路进行文字识别，主要有矫正网络和识别网络两大部分，其中矫正网络采用TPS的思路，不过不是和tps一样直接预测2*n个关键点，而是预测中心线，然后加上一个偏置b。识别部分采用GRU实现的attention进行解码，采用了一种新的双向方式替换了aster的方法。具有更好的效果。

3. 论文方法

3.1 矫正网络

矫正网络采用了STN，关键就是如何预测STN网络的控制点。
由于2D场景文本图像中的大多数字符都是沿直线或平滑曲线运动的，所以控制点也具有相同的特性趋势，多项式曲线是有效的估计趋势文本布局。我们可以用带有偏差的曲线来估计每条线的控制点Ci
在这里插入图片描述
矫正网络结构为：

而ASTER等矫正网络的参数个数为MN2，不过这个只有在关键点多的时候才能体现出来。论文说这种偏置的关键点预测方法能更好的包络文字区域。

3.2 识别网络

在这里插入图片描述
相较于ASTER，论文只用了一个解码层，GRU接受一个方向编码实现ASTER两个不同方向编码的效果。
ASTER等方法采用两个不同的分支来预测west和tsew，论文的方法可以在解码部分可以减少1/2的参数。
方向向量由一个独热向量嵌入而来，如1表示正向，0表示反向。

4.结果

在这里插入图片描述
在更区的文字上效果可能更好一点。

总结

优化了STN关键点的产生过程，对更区的文字效果更好
优化了ASTER方法解码部分双向解码时的参数

农夫山泉2号

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。