【文字识别】Scene Text Recognition With Finer Grid Rectification论文阅读

地址: 论文
思路: 这篇论文采用矫正再识别的思路进行文字识别,主要有矫正网络和识别网络两大部分,其中矫正网络采用TPS的思路,不过不是和tps一样直接预测2*n个关键点,而是预测中心线,然后加上一个偏置b。识别部分采用GRU实现的attention进行解码,采用了一种新的双向方式替换了aster的方法。具有更好的效果。

3. 论文方法

3.1 矫正网络

矫正网络采用了STN,关键就是如何预测STN网络的控制点。
由于2D场景文本图像中的大多数字符都是沿直线或平滑曲线运动的,所以控制点也具有相同的特性趋势,多项式曲线是有效的估计趋势文本布局。我们可以用带有偏差的曲线来估计每条线的控制点Ci
在这里插入图片描述
矫正网络结构为:
在这里插入图片描述
而ASTER等矫正网络的参数个数为MN2,不过这个只有在关键点多的时候才能体现出来。论文说这种偏置的关键点预测方法能更好的包络文字区域。

3.2 识别网络

在这里插入图片描述
相较于ASTER,论文只用了一个解码层,GRU接受一个方向编码实现ASTER两个不同方向编码的效果。
ASTER等方法采用两个不同的分支来预测westtsew,论文的方法可以在解码部分可以减少1/2的参数。
方向向量由一个独热向量嵌入而来,如1表示正向,0表示反向。

4.结果

在这里插入图片描述
在更区的文字上效果可能更好一点。

总结

  • 优化了STN关键点的产生过程,对更区的文字效果更好
  • 优化了ASTER方法解码部分双向解码时的参数
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值