【论文解读】MORAN: A Multi-Object Rectified Attention Network for Scene Text Recognition

最新推荐文章于 2024-12-28 09:35:45 发布

白大力

最新推荐文章于 2024-12-28 09:35:45 发布

阅读量3.4k

点赞数 1

分类专栏：人工智卷积神经网计算机视深度学目标检文章标签：深度学习文字识别

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/baigalxy/article/details/86533500

版权

论文介绍了MORAN——一个多对象校正注意力网络，用于自然场景文字识别，尤其针对弯曲文字。MORAN包含弯曲矫正网络MORN和识别网络ASRN两部分。MORN通过可微分映射实现弯曲矫正，ASRN采用CNN+BLSTM结构进行序列识别。论文链接和实现代码提供。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

MORAN: A Multi-Object Rectified Attention Network for Scene Text Recognition

这篇论文提出了自然场景下弯曲文字识别的一种网络MORAN。

MORAN 由两个部分组成：一个是弯曲矫正网络MORN，一个是识别网络ASRN。

弯曲矫正网络MORN

MORN(Multi-Object Rectification Network)网络定义了一个从输入图像坐标(x1,y1)到输出图像坐标(x2,y2)的可微分映射。可微保证了可用过梯度方法训练。

映射关系为：

x2=x1+ox1

y2=y1+oy1

(ox1,ox2)为输入图像(x1,y1)上的偏移坐标。

因此，通过矫正后输入图的(x1,y1)点的像素变为输出图的(x2,y2)点的像素。

其中由两点注意：

矫正之前(x2,y2)scale 到输出图像大小范围内，文中输入和输出大小一样。
(x2,y2)不是整数且分布不均匀，所以需要二至插入(bilinear interpolat

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。