【论文解读】MORAN: A Multi-Object Rectified Attention Network for Scene Text Recognition

论文介绍了MORAN——一个多对象校正注意力网络,用于自然场景文字识别,尤其针对弯曲文字。MORAN包含弯曲矫正网络MORN和识别网络ASRN两部分。MORN通过可微分映射实现弯曲矫正,ASRN采用CNN+BLSTM结构进行序列识别。论文链接和实现代码提供。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

MORAN: A Multi-Object Rectified Attention Network for Scene Text Recognition

 

这篇论文提出了自然场景下弯曲文字识别的一种网络MORAN。

MORAN 由两个部分组成:一个是弯曲矫正网络MORN,一个是识别网络ASRN。

 

弯曲矫正网络MORN

MORN(Multi-Object Rectification Network)网络定义了一个从输入图像坐标(x1,y1)到输出图像坐标(x2,y2)的可微分映射。可微保证了可用过梯度方法训练。

映射关系为:

x2=x1+ox1

y2=y1+oy1

(ox1,ox2)为输入图像(x1,y1)上的偏移坐标。

因此,通过矫正后输入图的(x1,y1)点的像素变为输出图的(x2,y2)点的像素。

 

其中由两点注意:

  1. 矫正之前(x2,y2)scale 到输出图像大小范围内,文中输入和输出大小一样。
  2. (x2,y2)不是整数且分布不均匀,所以需要二至插入(bilinear interpolat
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值